wrsjar 发表于 2014-12-25 17:32:59

如何过滤无效网址?

大家有没有碰到过这种场景?就是通过批量/多页方式添加网址规则时,有些网站规则不在列出的模式里边,比如:
http://aaa.bbb.ccc.ddd/for_1.html
http://aaa.bbb.ccc.ddd/for_3.html
http://aaa.bbb.ccc.ddd/for_8.html
http://aaa.bbb.ccc.ddd/for_15.html
这里的1,3,8,15既不是等差,也不是等比,也不是字母范围,那么我如何生成呢?

我的方法是直接按等差,把1~15的都穷举了,然后根据内容规则过滤自己想要的东西。但问题来了,这样生成很多无效网址,我经内容规则过滤后得到很多空白内容,这个怎么解?

wrsjar 发表于 2014-12-25 18:09:26

v8中如何将获取的内容做二次过滤,将空白项剔除?

303718 发表于 2014-12-25 18:20:09

空白了在火车头里设置排除掉就行了.不影响采集 的

wrsjar 发表于 2014-12-25 18:35:01

能说一下怎么设置排除么?俺是新手:(

303718 发表于 2014-12-27 12:18:20

相关教程http://faq.locoy.com/q-936.html
页: [1]
查看完整版本: 如何过滤无效网址?