火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 1990|回复: 0

多级网址获取,获取的网址在放入任务的网址库前校验吗?

[复制链接]
发表于 2012-11-24 22:57:52 | 显示全部楼层 |阅读模式
发现个很有趣的现象,估计是目标网站设置了同一IP超短时间内访问同一网址两次将判定为机器爬虫,因此在使用多级网址获取的时候,我很怀疑火车采集器先解析网址,然后校验解析出的网址是否正确(比如连接一下这个网址,是否有收到404错误),然后在放到任务的网址列表里面。可是这样就导致我如果批量输入网址抓取那个网站一点问题都没有,如果解析多级网址的话马上目标网址就提示出错了。

整个一个破案,有火车头的开发人员跟在这边吗?能帮忙确认一下吗?这个有没有开关可以关闭这个校验?

研究一天了,再不搞出来这个问题我估计要一夜不眠了!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-8-24 11:53

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表