jin.lee 发表于 2007-12-3 17:55:32

怎么避免采集重复的问题?

采集静态的坛子 
如果这个帖子是第10页的帖子 thread-(*)-1-10.html
后来被顶到第一页了~  地址就变成thread-(*)-1-1.html

这样就会重复采集一次了~ 

这应该怎么设置呢?

规则怎么写才好?

vus520 发表于 2007-12-3 18:49:25

火车有地址过滤功能,只要你不删除火车的采集数据库,就不会重复采集!

jin.lee 发表于 2007-12-4 00:18:08

:(   还是有少量的重复的~~ 

谢谢~我再检查一下 自己的问题~

[ 本帖最后由 jin.lee 于 2007-12-4 00:22 编辑 ]

行风 发表于 2008-11-23 14:10:00

头\LocoySpiderV2008\Data\3-new\WebError.log
发内容--WEB发布错误,标识码:标题或内容为空
发内容--WEB发布成功:无敌广告..
发内容--WEB发布成功:无敌广告..
发内容--WEB发布成功:这图有谁看得懂?
发内容--WEB发布成功:这图有谁看得懂?
发内容--WEB发布成功:这图有谁看得懂?
发内容--WEB发布成功:show出你的桌面
发内容--WEB发布成功:这图有谁看得懂?




我也重复了。。好晕哦

afanfan2007 发表于 2008-11-23 15:51:35

4楼 这是你采集的网站上的重复,不是火车头发布的重复。
页: [1]
查看完整版本: 怎么避免采集重复的问题?