怎么避免采集重复的问题?
采集静态的坛子如果这个帖子是第10页的帖子 thread-(*)-1-10.html
后来被顶到第一页了~ 地址就变成thread-(*)-1-1.html
这样就会重复采集一次了~
这应该怎么设置呢?
规则怎么写才好? 火车有地址过滤功能,只要你不删除火车的采集数据库,就不会重复采集! :( 还是有少量的重复的~~
谢谢~我再检查一下 自己的问题~
[ 本帖最后由 jin.lee 于 2007-12-4 00:22 编辑 ] 头\LocoySpiderV2008\Data\3-new\WebError.log
发内容--WEB发布错误,标识码:标题或内容为空
发内容--WEB发布成功:无敌广告..
发内容--WEB发布成功:无敌广告..
发内容--WEB发布成功:这图有谁看得懂?
发内容--WEB发布成功:这图有谁看得懂?
发内容--WEB发布成功:这图有谁看得懂?
发内容--WEB发布成功:show出你的桌面
发内容--WEB发布成功:这图有谁看得懂?
我也重复了。。好晕哦 4楼 这是你采集的网站上的重复,不是火车头发布的重复。
页:
[1]