火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 6568|回复: 12

如何不采集标题包含指定关键字的数据?

[复制链接]
发表于 2007-12-15 18:39:41 | 显示全部楼层 |阅读模式
有些数据可能是广告或者我不想要的数据,可以通过标题里的关键字识别,如何跳过这些地址,不采集呢?
发表于 2007-12-15 18:59:48 | 显示全部楼层
用排除哈。。。
 楼主| 发表于 2007-12-15 19:44:24 | 显示全部楼层
排除只是删除了那个关键字啊。并没有不采啊,而且这个不是在网址内啊
发表于 2007-12-15 19:53:59 | 显示全部楼层
既然关注标题,必然要把网页采回来,分析标题是否符合你的要求。软件还没聪明到不比较就知道表示是否符合你要求。除非一种情况,那就是网址列表是你的标题名。

评分

1

查看全部评分

发表于 2007-12-15 19:55:02 | 显示全部楼层
而一旦你采集回来,就必须要入库。因为不能程序还不能做到,某个字段为空的时候该页面不保存。
 楼主| 发表于 2007-12-15 20:37:55 | 显示全部楼层
这个我明白,采集回来当然没有问题,我是想不让它们发布。比如某个标签含有特定关键词,发布的时候就跳过这条数据。
发表于 2007-12-15 21:04:43 | 显示全部楼层
这个问题很easy

斑竹大人的超级工具 ,你直接用这个工具把某字段包含某字符的行给删除就可以了

http://bbs.locoy.com/spider-21065-1-1.html
发表于 2007-12-15 21:46:57 | 显示全部楼层
不用这么麻烦.又是改数据库.又是删除的.
利用火车头发布设置里.发布标题不能为空的特性.
设置两个排除就能实现
拿火车头内置规则 笑话 来说.
测试页面用
http://www.sunvv.com/joke/26461.html
这个页面正常设置标题标签
开头 <h1>
结尾 </h1>
采集到的标题是
我再坚持一下

假设:所有包含 坚持 两字的标签.我都不要发布.
按下面方法设置.
开头 <h1>
结尾 /h1>
注意.结尾这里比上面少了一个<
少掉的<在后面设置的排除里用来确定结尾
设置两个排除
(*)坚持(*)<
<


看看测试采集的效果
标题是空的.

(*)坚持(*)<
改成
(*)坚持3(*)<
再测试.
标题可以正常采集.
可以放心采集.不会影响到你想采集的内容.

所以.只要设置
(*)关键字(*)<
<
的排除.就会把包含该关键字的标题变成空标题.
最后的<是做为结尾判断用.也就是</h1>里缺掉的<
这个结尾的判断一定要选一个标题里不可能会出现的来做.

开头不需要判断.可以直接在开头直接设(*)
但结尾一定要找一个来作为判断.


这算火车头使用时的一个小技巧.

[ 本帖最后由 fal 于 2007-12-16 15:16 编辑 ]
 楼主| 发表于 2007-12-16 13:19:55 | 显示全部楼层
厉害,厉害,火车的发挥空间还是很大的嘛,谢谢FAL!
发表于 2007-12-16 13:32:04 | 显示全部楼层
sp3 里面的排除功能真实惠!

假设:所有包含 坚持 两字的标签.我都不要发布.
按下面方法设置.
开头 <h1>
结尾 /h1>
注意.结尾这里比上面少了一个<
少掉的<在后面设置的排除里用来确定结尾
设置两个排除
(*)坚持(*)<
<

看看测试采集的效果
标题是空的.

(*)坚持(*)<
改成
(*)坚持3(*)<
再测试.
标题可以正常采集.
可以放心采集.不会影响到你想采集的内容.

所以.只要设置
(*)关键字(*)<
<
的排除.就会把包含该关键字的标题变成空标题.
最后的<是做为结尾判断用.也就是</h1>里缺掉的<
这个结尾的判断一定要选一个标题里不可能会出现的来做.

这算火车头使用时的一个小技巧.  已经收藏了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-13 23:08

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表