火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3287|回复: 8

重复采集严重!

[复制链接]
发表于 2007-11-5 10:21:49 | 显示全部楼层 |阅读模式
3.2SP3版,现在在采集某DZ小说论坛,每次我都会分别采集第一页第二页,希望能把新的东西全部采集下来。

但是,重复采集情况太严重了。


请问,该如何解决啊?
发表于 2007-11-5 11:20:58 | 显示全部楼层
地址库不要删除就不会出现重复
 楼主| 发表于 2007-11-5 12:58:31 | 显示全部楼层
没有动过地址库。

我采集的论坛是不需要登陆的。
但是DZ论坛帖子地址会每次打开都不一样,就象下面这样:
http://www.xxxx.com/viewthread.php?tid=314941&sid=IhHk6o

后面会随机产生一些字符,所以我也抓取了cookie,这样就不会有这些字符了。

这个cookie是否需要更换?比如从家里到公司的电脑上。
发表于 2007-11-5 13:12:15 | 显示全部楼层
不同的电脑当然要重新获取COOKIE了
 楼主| 发表于 2007-11-5 14:24:03 | 显示全部楼层
呵呵,不管怎么操作,都会有重复采集。

PS:都已经去掉了网址最后随机产生的那些字符。
发表于 2007-11-15 02:21:32 | 显示全部楼层
楼主我跟你的情况是一样的啊。
我找了一下,发现是采集网站的网址是不断变化的。
管理员面对这个如果处理?是否能以标题和内容来排除重复文档呢?

[ 本帖最后由 rightnow5 于 2007-11-15 02:28 编辑 ]
发表于 2007-11-15 08:59:38 | 显示全部楼层
最好能增加标题重复排除功能就好了
发表于 2007-11-15 10:46:53 | 显示全部楼层
恩,对的,用标题来判断非常实用的说~支持一下~可选的~
发表于 2007-11-15 12:00:39 | 显示全部楼层
嗯,两个加在一起判断唯一性更大
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-24 14:02

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表