yang.y.xu 发表于 2012-11-24 22:57:52

多级网址获取,获取的网址在放入任务的网址库前校验吗?

发现个很有趣的现象,估计是目标网站设置了同一IP超短时间内访问同一网址两次将判定为机器爬虫,因此在使用多级网址获取的时候,我很怀疑火车采集器先解析网址,然后校验解析出的网址是否正确(比如连接一下这个网址,是否有收到404错误),然后在放到任务的网址列表里面。可是这样就导致我如果批量输入网址抓取那个网站一点问题都没有,如果解析多级网址的话马上目标网址就提示出错了。

整个一个破案,有火车头的开发人员跟在这边吗?能帮忙确认一下吗?这个有没有开关可以关闭这个校验?

研究一天了,再不搞出来这个问题我估计要一夜不眠了!
页: [1]
查看完整版本: 多级网址获取,获取的网址在放入任务的网址库前校验吗?