重复网址超过30万就不正常了~

ggniao · 发表于 2012-12-18 10:59:13

重复网址超过30万采集网址就不正常了~ 首先初始化配置要很久然后出现字段不能重复，无法保存，我就晕了，采集url怎么会有重复的字段？已经升级到最新版也不行

cudd@163.com · 发表于 2012-12-18 20:52:19

1，md5(PageUrl)在16位情况下30万数据量，也很不容易出现重复情况，就算是重复，也应该是略过；难道md5(PageUrl)需要升级为32位？好像跟位数无关吧？
2,30万的数据量就无效，可能是内存问题。或者可能是30万个md5(PageUrl)的容量使得数据库运行速度很慢，在对比历史库的时候，发生超时，又没有对这种超时进行判断，直接略过，发生错误。我觉得原因应该是：网址库超时，程序没对这种情况进行处理(等待？/忽略？)，或者数据库运行慢是没对这个值进行索引，全表查询速度很慢。
3，如果可以的话，可以删除一定数量的网址库试试，删ID小的。

ggniao · 发表于 2012-12-19 09:31:28

这就是问题所在了，事实上这个问题跟之前的20万限制一样，提示的错误也是一模一样。

caziyo · 发表于 2012-12-19 09:35:39

把提示的错误信息贴出来看看

帐号		自动登录	找回密码
密码			加入会员

重复网址超过30万 就不正常了~

浏览过的版块

重复网址超过30万就不正常了~