火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3665|回复: 3

郁闷,不知道什么问题,经常会重复采集,网址库貌似没用。

[复制链接]
发表于 2012-12-27 21:18:42 | 显示全部楼层 |阅读模式
网址库是不是没有用啊?经常识别不了采集过的地址。
重复采好几次。
1,网址库内保存的url地址的md5()值,老早就保存了的。
2,不同次数去采,遇到重复地址竟然不过滤,又采一次两次的。

检查过好几次,经常判断不了网址库内的,是不是程序对同一url地址的md5每次得到的值是不同的?或者这一些数组发生读取错误?

当然,大多数情况这个地址库是管用的,就是不知道怎么回事不能完全过滤,就算url库够大,也不会大到md5都重复的情况吧,我的网址库内只有不到200条记录。。。。。

怎么回事啊?好多重复的,小文同学解决一下吧。。。。
 楼主| 发表于 2012-12-27 21:32:13 | 显示全部楼层
如果一个网址出现在utf-8编码的网页上,也出现在gb2312编码的网页上,是不是他们的md5()值不同呢?不像是这个原因导致的吧?
 楼主| 发表于 2012-12-27 22:27:31 | 显示全部楼层
本帖最后由 cudd@163.com 于 2012-12-28 10:29 编辑

传统,上图。采集地址的网址库无效了。。。。重复采集。晕乎乎了

话说,奇怪了,只有重复两次的,却没有重复三次或者三次以上的。。。。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2012-12-28 10:59:49 | 显示全部楼层
我来看看,联系此qq:151618302

您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-23 12:09

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表