火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4359|回复: 4

过滤规则的思路要换个方向,这样才能简单高效

[复制链接]
发表于 2007-5-14 16:14:18 | 显示全部楼层 |阅读模式
比如采集一篇普通文章,我们需要保留的html标记通常是<p(*)> <br(*)> <img(*)>,有时可能会保留<font(*)><b><strong>,其余的都可以去掉。
所以,建议火车头下一版本推出异或等逻辑功能,这样只需要简单选择几个html标记,一篇文章里的99%的垃圾代码都可以去掉了。节省了写过滤规则的大量简单重复的劳动。
发表于 2007-5-15 17:28:10 | 显示全部楼层
现在的不是有吗,,只不过过滤效果不杂的
 楼主| 发表于 2007-5-20 01:56:49 | 显示全部楼层
现在的html代码过滤不全,经常漏掉许多。
我的意思是选择2-3个html代码保留的,凡是不属于这几种的html代码统统过滤。
发表于 2007-5-20 22:19:47 | 显示全部楼层
楼主的想法太有用了
发表于 2007-8-6 16:02:13 | 显示全部楼层
原帖由 speculator 于 2007-5-14 16:14 发表
比如采集一篇普通文章,我们需要保留的html标记通常是<p(*)> <br(*)> <img(*)>,有时可能会保留<font(*)><b><strong>,其余的都可以去掉。
所以,建议火车头下一版本推出 ...



原来楼主早就想到了啊,这个方法我也提交给火车头了,不知道是否在3.2版得到加强:

关于html标签排除和标签:时间
1.关于--HTML标签排除
现在的html标签排除,虽然能排除大部分标签,但采集有时往往有自己想不到的标签没排除影响采集的整体内容。
我建议:建立反排除标签。
建议详细如下:目前,排除所有标签,用 <(*)> 可以解决,往往人们需要其中部分有用的标签,所以设置排除所有标签,但某部分除外:
如:<br...>、<a...>、<a img...><a href...>等等
此部分标签由人们来选择保留。
3.1使用的排除法因为有自己想不到的标签未排除,使用此法就可以轻松搞定。这样的话,就不用再想破脑袋该排除哪些html标签,而且还能解决排除大小写标签的问题,不用再为标签的大小号问题写一长串的排除规则了。
2.关于--标签:时间
标签:时间,希望能设置成在一定范围内随机时间,目前采集的文章时间都太相近,对搜索引擎收录有一定影响。
如果上面的时间不好实现,那么希望将目前的时间格式:2006年6月16日,修改为:2006-06-16。3此项时间使用中文的年月日,用数据库入库,结果数据库日期字段不能识别,成为:0000-00-00。其它的时间格式都没问题。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-7 23:41

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表