内容页网址为什么查重失败了呢？重复采集如何避免？

iou33449999 · 发表于 2015-10-16 20:04:59

因为目标网站经常更新，而且页面很多，因此，为了提高效率，我将同一个任务导入不同的电脑上同时采集网址（只采集网址，不采集内容），然后分别导出各个任务采集的PageUrl字段的数据，合并到一个数据库中，然后再在一个机器上集中采集。因此，这时候执行采集内容的PageUrl不是直接采集的，而是导入的。于是，我的噩梦来了：在采集完这些PageUrl的内容后，发现这个网站又更新了，于是，我在这个合库的机器上，重新执行了一次网址采集（采集规则没变），等我兴冲冲的发现采集了不少网址时（当然大部分提醒重复，略过了），我认为我采集到的都是最新的网址。但是，事实是，等我结束所有网址采集是，居然发现有30%以上的网址是之前采集过的，这些重复的网址并没有实现查重，居然被按照新网址写入了PageUrl字段，这是怎么回事，我在采集的那个位置设置了查重的啊，而且设置的”网址重复多少次停止采集“那一块设置的参数是”0“，是我设置错了，还是这是火车头的BUG呢？

对于目标网站经常更新，而且页面很多的网站，我们应该怎么执行采集人我，可以快速筛选到最新的PageUrl，同时还不会重新重复网址重复采集的情况呢？

谢谢^_^

303718 · 发表于 2015-10-17 08:14:45

排除重复的数据是在DATA目录下的PageUrl目录下的文件才是排除重复用的。

帐号		自动登录	找回密码
密码			加入会员