火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4177|回复: 2

v8版存在url重复采集问题,还请官方帮忙解决。

[复制链接]
发表于 2013-12-6 09:43:59 | 显示全部楼层 |阅读模式
v8版存在url重复采集问题,还请官方帮忙解决。

我是这样操作的,先全采一次(600页,一页1000条记录),整个采集过程中会少一些记录。然后我在次基础上又重采一次。
前面都能判断出重复,感觉就是只要中间有一条不重复,后面都判断是不重复了。
我用的是post采集,检测重复网址也是选了的。

规则文件已经发给客服了,有时间帮看看,谢谢。
 楼主| 发表于 2013-12-6 10:35:08 | 显示全部楼层
对url重复的判断不知道是怎么实现的?感觉不想是一条条的去数据库对比,因为出现重复经常是一整页,一整页的重复。
 楼主| 发表于 2013-12-9 13:57:52 | 显示全部楼层
ayurep 发表于 2013-12-6 10:35
对url重复的判断不知道是怎么实现的?感觉不想是一条条的去数据库对比,因为出现重复经常是一整页,一整页的 ...

用的最新的v8 标准版,单任务采集的数据量在60w条,第一次基本能成功采集58w条,剩下的想第二次再采集,结果就遇到重复的问题了。本地数据库为mssql08r2
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-4-15 05:40

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表