重复采集严重!
3.2SP3版,现在在采集某DZ小说论坛,每次我都会分别采集第一页第二页,希望能把新的东西全部采集下来。但是,重复采集情况太严重了。
请问,该如何解决啊? 地址库不要删除就不会出现重复 没有动过地址库。
我采集的论坛是不需要登陆的。
但是DZ论坛帖子地址会每次打开都不一样,就象下面这样:
http://www.xxxx.com/viewthread.php?tid=314941&sid=IhHk6o
后面会随机产生一些字符,所以我也抓取了cookie,这样就不会有这些字符了。
这个cookie是否需要更换?比如从家里到公司的电脑上。 不同的电脑当然要重新获取COOKIE了 呵呵,不管怎么操作,都会有重复采集。
PS:都已经去掉了网址最后随机产生的那些字符。 楼主我跟你的情况是一样的啊。
我找了一下,发现是采集网站的网址是不断变化的。
管理员面对这个如果处理?是否能以标题和内容来排除重复文档呢?
[ 本帖最后由 rightnow5 于 2007-11-15 02:28 编辑 ] 最好能增加标题重复排除功能就好了 :ali0ls 恩,对的,用标题来判断非常实用的说~支持一下~可选的~ 嗯,两个加在一起判断唯一性更大
页:
[1]