ayurep 发表于 2013-12-6 09:43:59

v8版存在url重复采集问题,还请官方帮忙解决。

v8版存在url重复采集问题,还请官方帮忙解决。

我是这样操作的,先全采一次(600页,一页1000条记录),整个采集过程中会少一些记录。然后我在次基础上又重采一次。
前面都能判断出重复,感觉就是只要中间有一条不重复,后面都判断是不重复了。
我用的是post采集,检测重复网址也是选了的。

规则文件已经发给客服了,有时间帮看看,谢谢。

ayurep 发表于 2013-12-6 10:35:08

对url重复的判断不知道是怎么实现的?感觉不想是一条条的去数据库对比,因为出现重复经常是一整页,一整页的重复。

ayurep 发表于 2013-12-9 13:57:52

ayurep 发表于 2013-12-6 10:35 static/image/common/back.gif
对url重复的判断不知道是怎么实现的?感觉不想是一条条的去数据库对比,因为出现重复经常是一整页,一整页的 ...

用的最新的v8 标准版,单任务采集的数据量在60w条,第一次基本能成功采集58w条,剩下的想第二次再采集,结果就遇到重复的问题了。本地数据库为mssql08r2
页: [1]
查看完整版本: v8版存在url重复采集问题,还请官方帮忙解决。