火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3098|回复: 3

重复网址超过30万 就不正常了~

[复制链接]
发表于 2012-12-18 10:59:13 | 显示全部楼层 |阅读模式
重复网址超过30万 采集网址就不正常了~  首先初始化配置要很久 然后出现字段不能重复,无法保存,我就晕了,采集url怎么会有重复的字段?已经升级到最新版 也不行
发表于 2012-12-18 20:52:19 | 显示全部楼层
1,md5(PageUrl)在16位情况下30万数据量,也很不容易出现重复情况,就算是重复,也应该是略过;难道md5(PageUrl)需要升级为32位?好像跟位数无关吧?
2,30万的数据量就无效,可能是内存问题。或者可能是30万个md5(PageUrl)的容量使得数据库运行速度很慢,在对比历史库的时候,发生超时,又没有对这种超时进行判断,直接略过,发生错误。我觉得原因应该是:网址库超时,程序没对这种情况进行处理(等待?/忽略?),或者数据库运行慢是没对这个值进行索引,全表查询速度很慢。
3,如果可以的话,可以删除一定数量的网址库试试,删ID小的。
 楼主| 发表于 2012-12-19 09:31:28 | 显示全部楼层
这就是问题所在了,事实上这个问题跟之前的20万限制一样,提示的错误也是一模一样。
发表于 2012-12-19 09:35:39 | 显示全部楼层
把提示的错误信息贴出来看看
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-23 12:15

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表