火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
12
返回列表 发新帖
楼主: bigqin

如何不采集标题包含指定关键字的数据?

[复制链接]
发表于 2007-12-16 13:32:04 | 显示全部楼层
sp3 里面的排除功能真实惠!

假设:所有包含 坚持 两字的标签.我都不要发布.
按下面方法设置.
开头 <h1>
结尾 /h1>
注意.结尾这里比上面少了一个<
少掉的<在后面设置的排除里用来确定结尾
设置两个排除
(*)坚持(*)<
<

看看测试采集的效果
标题是空的.

(*)坚持(*)<
改成
(*)坚持3(*)<
再测试.
标题可以正常采集.
可以放心采集.不会影响到你想采集的内容.

所以.只要设置
(*)关键字(*)<
<
的排除.就会把包含该关键字的标题变成空标题.
最后的<是做为结尾判断用.也就是</h1>里缺掉的<
这个结尾的判断一定要选一个标题里不可能会出现的来做.

这算火车头使用时的一个小技巧.  已经收藏了
 楼主| 发表于 2007-12-16 14:18:12 | 显示全部楼层
对了,开头不需要判断吗?
发表于 2007-12-16 15:14:54 | 显示全部楼层
开头不需要判断.可以直接在开头直接设(*)
但结尾一定要找一个来作为判断.

真正设置起来就两句话.解释起来写了这么多.晕.

[ 本帖最后由 fal 于 2007-12-16 15:17 编辑 ]
发表于 2007-12-17 07:22:00 | 显示全部楼层
顶一下。。学习了。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-13 09:13

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表