火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3464|回复: 6

任务运行时线程设置 建议

 关闭 [复制链接]
发表于 2012-2-22 16:41:36 | 显示全部楼层 |阅读模式
  建议  “任务运行时线程设置”   增加个“控制采集网址速度”的内容。现有的都是控制采集内容的。




理由:1  速度过快,容易被发现
          2  网络不好时经常出现采集空的情况,在采集分页时尤为明显。

看我的截图





第一张图,几页都直接跳空了。
第二张图,前面几个分页跳空,最后一个又采集到了。

希望官方改进~!谢谢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2012-2-22 17:32:02 | 显示全部楼层
现在网址保存是一次保存20个,如果没有达到数量,会等达到后再次保存。
 楼主| 发表于 2012-2-22 18:15:58 | 显示全部楼层
rq204 发表于 2012-2-22 17:32
现在网址保存是一次保存20个,如果没有达到数量,会等达到后再次保存。

没搞明白BOSS的意思

我说的是速度问题,跟保存有什么关系?
发表于 2012-2-22 21:34:37 | 显示全部楼层
这是应该支持的。支持。
 楼主| 发表于 2012-2-23 19:19:43 | 显示全部楼层
又发现一个可能与此有关的问题。

采集测试时:



实际运行任务时(重复了多次):





测试时得到了3098个二级网址,实际运行时得到了883个网址。测试时网址是不去重复的,但这两者是不是差的也太多了。按照这样算目标网站的信息重复率为:(3098-883)/3098*100%=71.5%

重复率高达71.5% 肯定是不可能的。我看了一下测试时采集效果比较好,每个一级网址(及分页)下的二级网址基本上都采集到了,但实际运行时就不这样了,一级网址(及分页)很多都跳过去了,也就是说页面源码没有下载全,分析不到要的二级地址。

这个问题有可能是网络问题,但我是在同一电脑,同一时间段做上诉测试的,应该不是网速问题。

我发现实际运行任务时比采集测试时要慢,当然可能是因为采集不到,等在那里了。或者是过快导致服务器认为是DDOS攻击,或者用了防采集。



综上所诉是不是采集网址过快导致,或者程序有问题。还请官方关注一下。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2012-2-24 21:56:15 | 显示全部楼层
这个是啥问题呢。支持。官方重视下。
发表于 2012-2-25 10:18:22 | 显示全部楼层
收到,这块再细致测试下。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 23:46

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表