haifding 发表于 2012-2-22 16:41:36

任务运行时线程设置 建议

建议“任务运行时线程设置”   增加个“控制采集网址速度”的内容。现有的都是控制采集内容的。




理由:1速度过快,容易被发现
          2网络不好时经常出现采集空的情况,在采集分页时尤为明显。

看我的截图





第一张图,几页都直接跳空了。
第二张图,前面几个分页跳空,最后一个又采集到了。

希望官方改进~!谢谢

rq204 发表于 2012-2-22 17:32:02

现在网址保存是一次保存20个,如果没有达到数量,会等达到后再次保存。

haifding 发表于 2012-2-22 18:15:58

rq204 发表于 2012-2-22 17:32 static/image/common/back.gif
现在网址保存是一次保存20个,如果没有达到数量,会等达到后再次保存。

没搞明白BOSS的意思

我说的是速度问题,跟保存有什么关系?

fzs888 发表于 2012-2-22 21:34:37

这是应该支持的。支持。

haifding 发表于 2012-2-23 19:19:43

又发现一个可能与此有关的问题。

采集测试时:



实际运行任务时(重复了多次):





测试时得到了3098个二级网址,实际运行时得到了883个网址。测试时网址是不去重复的,但这两者是不是差的也太多了。按照这样算目标网站的信息重复率为:(3098-883)/3098*100%=71.5%

重复率高达71.5% 肯定是不可能的。我看了一下测试时采集效果比较好,每个一级网址(及分页)下的二级网址基本上都采集到了,但实际运行时就不这样了,一级网址(及分页)很多都跳过去了,也就是说页面源码没有下载全,分析不到要的二级地址。

这个问题有可能是网络问题,但我是在同一电脑,同一时间段做上诉测试的,应该不是网速问题。

我发现实际运行任务时比采集测试时要慢,当然可能是因为采集不到,等在那里了。或者是过快导致服务器认为是DDOS攻击,或者用了防采集。



综上所诉是不是采集网址过快导致,或者程序有问题。还请官方关注一下。

fzs888 发表于 2012-2-24 21:56:15

这个是啥问题呢。支持。官方重视下。

火车头 发表于 2012-2-25 10:18:22

收到,这块再细致测试下。
页: [1]
查看完整版本: 任务运行时线程设置 建议