任务运行时线程设置 建议
建议“任务运行时线程设置” 增加个“控制采集网址速度”的内容。现有的都是控制采集内容的。理由:1速度过快,容易被发现
2网络不好时经常出现采集空的情况,在采集分页时尤为明显。
看我的截图
第一张图,几页都直接跳空了。
第二张图,前面几个分页跳空,最后一个又采集到了。
希望官方改进~!谢谢 现在网址保存是一次保存20个,如果没有达到数量,会等达到后再次保存。 rq204 发表于 2012-2-22 17:32 static/image/common/back.gif
现在网址保存是一次保存20个,如果没有达到数量,会等达到后再次保存。
没搞明白BOSS的意思
我说的是速度问题,跟保存有什么关系? 这是应该支持的。支持。 又发现一个可能与此有关的问题。
采集测试时:
实际运行任务时(重复了多次):
测试时得到了3098个二级网址,实际运行时得到了883个网址。测试时网址是不去重复的,但这两者是不是差的也太多了。按照这样算目标网站的信息重复率为:(3098-883)/3098*100%=71.5%
重复率高达71.5% 肯定是不可能的。我看了一下测试时采集效果比较好,每个一级网址(及分页)下的二级网址基本上都采集到了,但实际运行时就不这样了,一级网址(及分页)很多都跳过去了,也就是说页面源码没有下载全,分析不到要的二级地址。
这个问题有可能是网络问题,但我是在同一电脑,同一时间段做上诉测试的,应该不是网速问题。
我发现实际运行任务时比采集测试时要慢,当然可能是因为采集不到,等在那里了。或者是过快导致服务器认为是DDOS攻击,或者用了防采集。
综上所诉是不是采集网址过快导致,或者程序有问题。还请官方关注一下。 这个是啥问题呢。支持。官方重视下。 收到,这块再细致测试下。
页:
[1]