火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 1869|回复: 4

如何过滤无效网址?

[复制链接]
发表于 2014-12-25 17:32:59 | 显示全部楼层 |阅读模式
大家有没有碰到过这种场景?就是通过批量/多页方式添加网址规则时,有些网站规则不在列出的模式里边,比如:
http://aaa.bbb.ccc.ddd/for_1.html
http://aaa.bbb.ccc.ddd/for_3.html
http://aaa.bbb.ccc.ddd/for_8.html
http://aaa.bbb.ccc.ddd/for_15.html
这里的1,3,8,15既不是等差,也不是等比,也不是字母范围,那么我如何生成呢?

我的方法是直接按等差,把1~15的都穷举了,然后根据内容规则过滤自己想要的东西。但问题来了,这样生成很多无效网址,我经内容规则过滤后得到很多空白内容,这个怎么解?
 楼主| 发表于 2014-12-25 18:09:26 | 显示全部楼层
v8中如何将获取的内容做二次过滤,将空白项剔除?
发表于 2014-12-25 18:20:09 | 显示全部楼层
空白了在火车头里设置排除掉就行了.不影响采集 的
 楼主| 发表于 2014-12-25 18:35:01 | 显示全部楼层
能说一下怎么设置排除么?俺是新手
发表于 2014-12-27 12:18:20 | 显示全部楼层
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 05:31

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表