杨为青 发表于 2008-10-21 17:55:30

为什么采集网址会有误差

今天下午采集一个站的网址。共4200多条数据。一次性采得3700多条。误差500多条。用时45分钟左右。犹豫再三。觉得是火车头的问题。于是重采。想想重采和删除网址重采速度差不多。于是删除3700多条网址。这次是1500条为一次。共采了3次。花的时间差不多。误差为8.
      500和8是个不小的差距。看来火车头在走向稳定性的途中还有一段基础的距离。

rq204 发表于 2008-10-21 18:24:21

你线程开少占满,时间间隔弄小些,有时太快会获取不到源码

杨为青 发表于 2008-10-21 20:02:46

谢谢版主的帮助,线程开大,间隔开大是速度慢些吧

冲锋火车头 发表于 2008-10-21 21:01:35

时间 网速等的关系

杨为青 发表于 2008-10-22 07:32:03

规则都没改,就是一次采的分3次

chenfy 发表于 2008-10-22 08:03:19

一个分三次也等于线程加大了。一个规则这么多线程,三个等于三倍的线程
页: [1]
查看完整版本: 为什么采集网址会有误差