火车头的重复检测跳过功能,希望可以应用到404或者采集不到的情况。
本帖最后由 caijihome 于 2013-6-7 18:14 编辑有些网站,数据比较多。
栏目比较多,或者关键词比较多。
我直接设置最大页码,比如全部设置 100页。
能不能火车头在采网址的时候这样!!连续N条 采集不到网址的时候跳过改组 多页网址
同理 404 。连续 多页网址 打不开,就不要继续向后面蹦了。效率低着呢。 这样一来,我是不是不用管他们多少页? 连续 10个列表采集不到东西。直接跳过不采集了。
是连续,不是积累,加上这个功能吧!! POST规则亦如此。批量的话。无法一个一个设置页码,希望火车头自动一点。 建议增加带特定 字符串跳过!! 90seoboy 发表于 2013-6-29 17:21 static/image/common/back.gif
建议增加带特定 字符串跳过!!
啥意思,这个本身有这个功能吧。过滤 和你们一块学习。。。
页:
[1]