iou33449999 发表于 2015-10-16 20:04:59

内容页网址为什么查重失败了呢?重复采集如何避免?

因为目标网站经常更新,而且页面很多,因此,为了提高效率,我将同一个任务导入不同的电脑上同时采集网址(只采集网址,不采集内容),然后分别导出各个任务采集的PageUrl字段的数据,合并到一个数据库中,然后再在一个机器上集中采集。因此,这时候执行采集内容的PageUrl不是直接采集的,而是导入的。于是,我的噩梦来了:在采集完这些PageUrl的内容后,发现这个网站又更新了,于是,我在这个合库的机器上,重新执行了一次网址采集(采集规则没变),等我兴冲冲的发现采集了不少网址时(当然大部分提醒重复,略过了),我认为我采集到的都是最新的网址。但是,事实是,等我结束所有网址采集是,居然发现有30%以上的网址是之前采集过的,这些重复的网址并没有实现查重,居然被按照新网址写入了PageUrl字段,这是怎么回事,我在采集的那个位置设置了查重的啊,而且设置的”网址重复多少次停止采集“那一块设置的参数是”0“,是我设置错了,还是这是火车头的BUG呢?

对于目标网站经常更新,而且页面很多的网站,我们应该怎么执行采集人我,可以快速筛选到最新的PageUrl,同时还不会重新重复网址重复采集的情况呢?


谢谢^_^

303718 发表于 2015-10-17 08:14:45

排除重复的数据是在DATA目录下的PageUrl目录下的文件才是排除重复用的。
页: [1]
查看完整版本: 内容页网址为什么查重失败了呢?重复采集如何避免?