发新话题
打印

火车的重复采集怎么解决?

火车的重复采集怎么解决?

刚学采集。火车 1.21版  线程1  间隔时间200ms

采集论坛到论坛 每个帖子都发2遍。还有4遍6遍的。开始以为个别现象。到论坛搜索了一下。发现这是个普遍存在的问题。

现在问一下:这个问题有解决方法吗?要怎么办? 2.0已经解决了吗?

TOP

1.21的没碰到过
2.0的有,你把地址全部采了,放到TXT文件,再采一次,看看

TOP

首先检查网址规则

再有就是可能是论坛的灌水限制
你把线程间的时间间隔调长一些

应该可以解决

TOP

把你采集过的地址删掉也许不会重复

就在urldata里

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.218664 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-11-23 23:29 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档