找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2843|回复: 4

检测重复网址无效的烦忧~

[复制链接]
发表于 2017-10-23 00:19:13 | 显示全部楼层 |阅读模式
本帖最后由 iou33449999 于 2017-10-23 00:31 编辑

首先,我还是一个新手、、、
某站,为了采集所有的网址,需要使用两个采集规则才可以确保采集完整数据,于是,我在两个采集规则分别采集完网址之后(此时不进行内容采集),将两个数据库(数据库为Access的SpiderResult.mdb格式)里面的PageUrl合并去重之后就得到了完整版采集网址(URL.txt,超过30万网址),然后新建一个采集规则用于采集每个网址对应的内容,并且通过Access数据库功能,直接将合并去重后的网址(URL.txt)导入数据库的PageUrl字段下,然后进行内容采集,到此为止,一切都是正常的。


由于该站每天都有更新,这样我就想要对该站的前十个分页每天采集一次(也许更新的只是前1个、前3个或前5个分页,但是为了不遗漏数据,所以我就想采集前10个分页),但是此时我发现,新建的采集规则的检测重复网址无效,之前采集过的网址还是会出现在数据库的PageUrl里面,为什么明明PageUrl里面已经有这个网址了,但是还是会采集该网址呢????

于是我在论坛里面搜索后发现,或许,火车头判断是否重复网址的依据不是看SpiderResult.mdb数据库里面的PageUrl字段,而是依据\Data\PageUrl下的数据库里面的Urls字段,是吗?那里记录的是一串字符,难道是每个网址的MD5吗?2a3c87a87ab49f6c之类的。


那么,我该怎么办才可以实现两个采集规则下的去重采集,并且可以每日更新采集而且不会重复采集呢?
发表于 2017-10-23 09:23:19 | 显示全部楼层
是MD5.
开始采集的时候两个规则里可以设置同一个网址库。这样就两个规则采集都不会重复了呢。
发表于 2017-10-23 14:41:27 | 显示全部楼层


把两个规则的网址库设置成一样的,你会发现问题都解决了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2017-10-23 20:07:48 | 显示全部楼层
303718 发表于 2017-10-23 09:23
是MD5.
开始采集的时候两个规则里可以设置同一个网址库。这样就两个规则采集都不会重复了呢。 ...

也就是, 分别采集, 然后再合并两个数据库吗?
那么,可以共用同一个数据库吗?
发表于 2017-10-24 09:10:26 | 显示全部楼层
iou33449999 发表于 2017-10-23 20:07
也就是, 分别采集, 然后再合并两个数据库吗?
那么,可以共用同一个数据库吗? ...

共用同一个库就行了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表