caijihome 发表于 2014-1-23 12:30:36

火车头多页采集的BUG,一旦有来路信息就反常,单独采集没事,碰到过多次。

以前碰到很多情况
比如采集一个网站,用多页去采集另外网站, 多页采集就封IP,而单独去采集多页则正常。

下面这个规则也是一样。 用多页采集 返回的信息不正确,而单独采集则正确。

个人认为 多页缺少了什么设置,或者多了什么设置。

下面这个规则2010多页没问题,V8有问题。



Sorry, your request could not be processed because the qualifier of the URL (/) is incorrect. Please contact the Help Desk if the problem persists.
不知道是不是多页自动做了什么转义处理

caijihome 发表于 2014-1-23 12:51:24

方法有是有,多的是。
HTTP请求等都可以解决。

问题是这个多页,好多时候觉得怪怪的,难道是官方故意这样设置的。还是有其他用途。也可能不理解开发者的本意。随便吧。多页习惯了,用其他不习惯。


我有个建议在这里提下! 分页和多页,希望可以循环递增交叉采集。

有很多程序都是 多页中带多页。

caijihome 发表于 2014-1-23 12:54:43

分页中带分页或分页中带多页,火车头不支持。话有说回来。HTTP请求可能是千能的,有些变相支持。

caijihome 发表于 2014-1-23 13:01:36

刚刚才注意到,是多页的写法导致出现的问题,多页本身都是一样的,为什么有反差呢?希望看下。这里还是有BUG的。
页: [1]
查看完整版本: 火车头多页采集的BUG,一旦有来路信息就反常,单独采集没事,碰到过多次。