VipHero 发表于 2007-11-5 10:21:49

重复采集严重!

3.2SP3版,现在在采集某DZ小说论坛,每次我都会分别采集第一页第二页,希望能把新的东西全部采集下来。

但是,重复采集情况太严重了。


请问,该如何解决啊?

火车头 发表于 2007-11-5 11:20:58

地址库不要删除就不会出现重复

VipHero 发表于 2007-11-5 12:58:31

没有动过地址库。

我采集的论坛是不需要登陆的。
但是DZ论坛帖子地址会每次打开都不一样,就象下面这样:
http://www.xxxx.com/viewthread.php?tid=314941&sid=IhHk6o

后面会随机产生一些字符,所以我也抓取了cookie,这样就不会有这些字符了。

这个cookie是否需要更换?比如从家里到公司的电脑上。

yulei68 发表于 2007-11-5 13:12:15

不同的电脑当然要重新获取COOKIE了

VipHero 发表于 2007-11-5 14:24:03

呵呵,不管怎么操作,都会有重复采集。

PS:都已经去掉了网址最后随机产生的那些字符。

rightnow5 发表于 2007-11-15 02:21:32

楼主我跟你的情况是一样的啊。
我找了一下,发现是采集网站的网址是不断变化的。
管理员面对这个如果处理?是否能以标题和内容来排除重复文档呢?

[ 本帖最后由 rightnow5 于 2007-11-15 02:28 编辑 ]

lcw2000 发表于 2007-11-15 08:59:38

最好能增加标题重复排除功能就好了

eeq 发表于 2007-11-15 10:46:53

:ali0ls 恩,对的,用标题来判断非常实用的说~支持一下~可选的~

cqs263 发表于 2007-11-15 12:00:39

嗯,两个加在一起判断唯一性更大
页: [1]
查看完整版本: 重复采集严重!