如何不采集标题包含指定关键字的数据？

bigqin · 发表于 2007-12-15 18:39:41

有些数据可能是广告或者我不想要的数据，可以通过标题里的关键字识别，如何跳过这些地址，不采集呢？

wohense · 发表于 2007-12-15 18:59:48

用排除哈。。。

bigqin · 发表于 2007-12-15 19:44:24

排除只是删除了那个关键字啊。并没有不采啊，而且这个不是在网址内啊

sushy · 发表于 2007-12-15 19:53:59

既然关注标题，必然要把网页采回来，分析标题是否符合你的要求。软件还没聪明到不比较就知道表示是否符合你要求。除非一种情况，那就是网址列表是你的标题名。

sushy · 发表于 2007-12-15 19:55:02

而一旦你采集回来，就必须要入库。因为不能程序还不能做到，某个字段为空的时候该页面不保存。

bigqin · 发表于 2007-12-15 20:37:55

这个我明白，采集回来当然没有问题，我是想不让它们发布。比如某个标签含有特定关键词，发布的时候就跳过这条数据。

sushy · 发表于 2007-12-15 21:04:43

这个问题很easy

斑竹大人的超级工具，你直接用这个工具把某字段包含某字符的行给删除就可以了

http://bbs.locoy.com/spider-21065-1-1.html

fal · 发表于 2007-12-15 21:46:57

不用这么麻烦.又是改数据库.又是删除的.
利用火车头发布设置里.发布标题不能为空的特性.
设置两个排除就能实现
拿火车头内置规则笑话来说.
测试页面用
http://www.sunvv.com/joke/26461.html
这个页面正常设置标题标签
开头 <h1>
结尾 </h1>
采集到的标题是
我再坚持一下

假设:所有包含坚持两字的标签.我都不要发布.
按下面方法设置.
开头 <h1>
结尾 /h1>
注意.结尾这里比上面少了一个<
少掉的<在后面设置的排除里用来确定结尾
设置两个排除
(*)坚持(*)<
<

看看测试采集的效果
标题是空的.
把
(*)坚持(*)<
改成
(*)坚持3(*)<
再测试.
标题可以正常采集.
可以放心采集.不会影响到你想采集的内容.

所以.只要设置
(*)关键字(*)<
<
的排除.就会把包含该关键字的标题变成空标题.
最后的<是做为结尾判断用.也就是</h1>里缺掉的<
这个结尾的判断一定要选一个标题里不可能会出现的来做.
开头不需要判断.可以直接在开头直接设(*)
但结尾一定要找一个来作为判断.

这算火车头使用时的一个小技巧.

[ 本帖最后由 fal 于 2007-12-16 15:16 编辑 ]

bigqin · 发表于 2007-12-16 13:19:55

厉害，厉害，火车的发挥空间还是很大的嘛，谢谢FAL！

小齐 · 发表于 2007-12-16 13:32:04

sp3 里面的排除功能真实惠！

假设:所有包含坚持两字的标签.我都不要发布.
按下面方法设置.
开头 <h1>
结尾 /h1>
注意.结尾这里比上面少了一个<
少掉的<在后面设置的排除里用来确定结尾
设置两个排除
(*)坚持(*)<
<

看看测试采集的效果
标题是空的.
把
(*)坚持(*)<
改成
(*)坚持3(*)<
再测试.
标题可以正常采集.
可以放心采集.不会影响到你想采集的内容.

所以.只要设置
(*)关键字(*)<
<
的排除.就会把包含该关键字的标题变成空标题.
最后的<是做为结尾判断用.也就是</h1>里缺掉的<
这个结尾的判断一定要选一个标题里不可能会出现的来做.

这算火车头使用时的一个小技巧.

已经收藏了

帐号		自动登录	找回密码
密码			加入会员

如何不采集标题包含指定关键字的数据？

评分

浏览过的版块