bulaoren 发表于 2009-6-27 08:22:43

两千多条信息,只成功采集了几十条,为什么呀?

本帖最后由 bulaoren 于 2009-6-27 08:23 编辑

2009SP2。
我采集阿里二手供应的诚信通会员信息,当采集的页数比较少时,所有的会员信息都能正确采集,可是当采集的页数比较多,比如50页、100页,采集内容时会大量报错,错误类似如下:

采内容--错误96http://shguante.cn.alibaba.com/athena/contact/shguante.html
采内容--错误13http://shchangrong88.cn.alibaba. ... /shchangrong88.html
采内容--错误53http://houjun8888.cn.alibaba.com/athena/contact/houjun8888.html
采内容--错误10http://shweichi.cn.alibaba.com/athena/contact/shweichi.html
采内容--错误47http://jinxinjichuang.cn.alibaba ... jinxinjichuang.html
采内容--无法解析此远程名称: 'jhjinlihua.cn.alibaba.com'http://jhjinlihua.cn.alibaba.com/athena/contact/jhjinlihua.html
采内容--错误15http://wangshuangqiao.cn.alibaba ... wangshuangqiao.html
采内容--错误3http://fwgarment.cn.alibaba.com/athena/contact/fwgarment.html
采内容--错误3http://szdfcn.cn.alibaba.com/athena/contact/szdfcn.html
。。。。。。(中间,时不时的会成功一条。)
明明应该采集两千多条,可是采集结束,只采集到了几十条。
声明:采集规则无错误,经实验,采集页数设为20页时,可采集信息几百条。可是采集页数比较多时,就会在采集内容时大量报错。

vus520 发表于 2009-6-27 09:24:49

无法解析此远程名称: 'jhjinlihua.cn.alibaba.com'

网站不能访问?

jueshihaogongzi 发表于 2009-6-27 10:27:16

把速度放慢点试试

bulaoren 发表于 2009-6-27 10:35:39

两千多条信息,只成功采集了几十条,为什么呀?

本帖最后由 bulaoren 于 2009-6-27 10:42 编辑

网站可以正常访问,我认为不是要采集的网站的问题。另外,发现,采集的页数越多,出现错误的几率越大,比如采集20页时会出现2%的采集错误,采集50页可能会出现20%的采集错误,如果采集100页,会出现90%的采集错误。以上数字是假设数字。
另外,错误绝大部分是类似
采内容--错误2http://qdqingrui.cn.alibaba.com/athena/contact/qdqingrui.html
这样提示。
再次声明下,不是采集规则的问题,采集规则经反复验证,没有问题。
另外,要采集的信息都是应该可以采集到的,不存在不能采集的问题。
采集速度放慢到3秒采一条,依然没有任何效果。

zqhyyj20070715 发表于 2009-6-27 11:26:43

期待高手解决,我试过采100页的。可是没有出现错误。这又是为什么?采集没有问题,是不是里面的一些代码有问题?

bulaoren 发表于 2009-6-27 13:22:35

郁闷。找不到解决办法

yc260982 发表于 2009-6-27 14:14:01

希望能解决。

cenkee 发表于 2009-6-27 17:17:39

怎么解决??

afanfan2007 发表于 2009-6-27 20:20:30

你速度太快人家跟不上了!放慢点 在任务编辑的 高级设置

bulaoren 发表于 2009-6-28 11:06:08

版主,我的采集速度已设为3000毫秒了,难道还要再慢?测试过了,页数在15页以内时,默认400毫秒能够采到所有信息。采集的速度和采集的页数没有关系吧?
页: [1]
查看完整版本: 两千多条信息,只成功采集了几十条,为什么呀?