火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2966|回复: 1

内容页网址为什么查重失败了呢?重复采集如何避免?

[复制链接]
发表于 2015-10-16 20:04:59 | 显示全部楼层 |阅读模式
因为目标网站经常更新,而且页面很多,因此,为了提高效率,我将同一个任务导入不同的电脑上同时采集网址(只采集网址,不采集内容),然后分别导出各个任务采集的PageUrl字段的数据,合并到一个数据库中,然后再在一个机器上集中采集。因此,这时候执行采集内容的PageUrl不是直接采集的,而是导入的。于是,我的噩梦来了:在采集完这些PageUrl的内容后,发现这个网站又更新了,于是,我在这个合库的机器上,重新执行了一次网址采集(采集规则没变),等我兴冲冲的发现采集了不少网址时(当然大部分提醒重复,略过了),我认为我采集到的都是最新的网址。但是,事实是,等我结束所有网址采集是,居然发现有30%以上的网址是之前采集过的,这些重复的网址并没有实现查重,居然被按照新网址写入了PageUrl字段,这是怎么回事,我在采集的那个位置设置了查重的啊,而且设置的”网址重复多少次停止采集“那一块设置的参数是”0“,是我设置错了,还是这是火车头的BUG呢?

对于目标网站经常更新,而且页面很多的网站,我们应该怎么执行采集人我,可以快速筛选到最新的PageUrl,同时还不会重新重复网址重复采集的情况呢?


谢谢^_^
发表于 2015-10-17 08:14:45 | 显示全部楼层
排除重复的数据是在DATA目录下的PageUrl目录下的文件才是排除重复用的。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 02:44

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表