caijihome 发表于 2013-6-7 18:05:36

火车头的重复检测跳过功能,希望可以应用到404或者采集不到的情况。

本帖最后由 caijihome 于 2013-6-7 18:14 编辑

有些网站,数据比较多。
栏目比较多,或者关键词比较多。
我直接设置最大页码,比如全部设置 100页。

能不能火车头在采网址的时候这样!!连续N条 采集不到网址的时候跳过改组 多页网址

同理 404 。连续 多页网址 打不开,就不要继续向后面蹦了。效率低着呢。

caijihome 发表于 2013-6-7 18:06:55

这样一来,我是不是不用管他们多少页? 连续 10个列表采集不到东西。直接跳过不采集了。

是连续,不是积累,加上这个功能吧!!

caijihome 发表于 2013-6-13 14:01:36

POST规则亦如此。批量的话。无法一个一个设置页码,希望火车头自动一点。

90seoboy 发表于 2013-6-29 17:21:15

建议增加带特定 字符串跳过!!

caijihome 发表于 2013-7-1 20:31:19

90seoboy 发表于 2013-6-29 17:21 static/image/common/back.gif
建议增加带特定 字符串跳过!!

啥意思,这个本身有这个功能吧。过滤

lbjyuer 发表于 2016-2-10 16:01:46

和你们一块学习。。。
页: [1]
查看完整版本: 火车头的重复检测跳过功能,希望可以应用到404或者采集不到的情况。