发新话题
打印

对火车采集的几点建议!

对火车采集的几点建议!

1.网址采集时最好是使用分页通配符。(虽然有(*)生成连续网址。但经测试,如果生成的网址中有些页面目标站删除后。火车采集就停在那里了。这样不方便)
2.最好配一个AC数据库用于记忆已经采集过的网址,这样避免重复采集!
3.登陆设置是否考虑更加优化!
4.(与第1相关)最好能使用自定义规则下一页的方式。以避免有的分页规则是按篇幅分页的。比如pageid=25这一页就有25个主题,下页就是pageID=50
5.导出采集规则希望能加上!

[ 本帖最后由 森林 于 2006-3-20 13:58 编辑 ]
论坛复制大转移(论坛克隆)正在火热销售中
同时承接如下业务:1.采集规则2.火车头登陆模块3.数据转换4.全站+论坛数据采集
数据1.两性网2.英文网3.宠物全站>>>以上联系QQ:83202700

TOP

同意第2点

TOP

1,4这样的问提我遇到过,看能不能改进成 在一定时间内不能采集就跳过采集下一个

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.117096 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-10-8 04:08 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档