两千多条信息,只成功采集了几十条,为什么呀?
本帖最后由 bulaoren 于 2009-6-27 08:23 编辑2009SP2。
我采集阿里二手供应的诚信通会员信息,当采集的页数比较少时,所有的会员信息都能正确采集,可是当采集的页数比较多,比如50页、100页,采集内容时会大量报错,错误类似如下:
采内容--错误96http://shguante.cn.alibaba.com/athena/contact/shguante.html
采内容--错误13http://shchangrong88.cn.alibaba. ... /shchangrong88.html
采内容--错误53http://houjun8888.cn.alibaba.com/athena/contact/houjun8888.html
采内容--错误10http://shweichi.cn.alibaba.com/athena/contact/shweichi.html
采内容--错误47http://jinxinjichuang.cn.alibaba ... jinxinjichuang.html
采内容--无法解析此远程名称: 'jhjinlihua.cn.alibaba.com'http://jhjinlihua.cn.alibaba.com/athena/contact/jhjinlihua.html
采内容--错误15http://wangshuangqiao.cn.alibaba ... wangshuangqiao.html
采内容--错误3http://fwgarment.cn.alibaba.com/athena/contact/fwgarment.html
采内容--错误3http://szdfcn.cn.alibaba.com/athena/contact/szdfcn.html
。。。。。。(中间,时不时的会成功一条。)
明明应该采集两千多条,可是采集结束,只采集到了几十条。
声明:采集规则无错误,经实验,采集页数设为20页时,可采集信息几百条。可是采集页数比较多时,就会在采集内容时大量报错。 无法解析此远程名称: 'jhjinlihua.cn.alibaba.com'
网站不能访问? 把速度放慢点试试
两千多条信息,只成功采集了几十条,为什么呀?
本帖最后由 bulaoren 于 2009-6-27 10:42 编辑网站可以正常访问,我认为不是要采集的网站的问题。另外,发现,采集的页数越多,出现错误的几率越大,比如采集20页时会出现2%的采集错误,采集50页可能会出现20%的采集错误,如果采集100页,会出现90%的采集错误。以上数字是假设数字。
另外,错误绝大部分是类似
采内容--错误2http://qdqingrui.cn.alibaba.com/athena/contact/qdqingrui.html
这样提示。
再次声明下,不是采集规则的问题,采集规则经反复验证,没有问题。
另外,要采集的信息都是应该可以采集到的,不存在不能采集的问题。
采集速度放慢到3秒采一条,依然没有任何效果。 期待高手解决,我试过采100页的。可是没有出现错误。这又是为什么?采集没有问题,是不是里面的一些代码有问题? 郁闷。找不到解决办法 希望能解决。 怎么解决?? 你速度太快人家跟不上了!放慢点 在任务编辑的 高级设置 版主,我的采集速度已设为3000毫秒了,难道还要再慢?测试过了,页数在15页以内时,默认400毫秒能够采到所有信息。采集的速度和采集的页数没有关系吧?
页:
[1]