过滤规则的思路要换个方向，这样才能简单高效

speculator · 发表于 2007-5-14 16:14:18

比如采集一篇普通文章，我们需要保留的html标记通常是<p(*)> <br(*)> <img(*)>，有时可能会保留<font(*)><b><strong>，其余的都可以去掉。
所以，建议火车头下一版本推出异或等逻辑功能，这样只需要简单选择几个html标记，一篇文章里的99%的垃圾代码都可以去掉了。节省了写过滤规则的大量简单重复的劳动。

Ray-king · 发表于 2007-5-15 17:28:10

现在的不是有吗,,只不过过滤效果不杂的

speculator · 发表于 2007-5-20 01:56:49

现在的html代码过滤不全，经常漏掉许多。
我的意思是选择2-3个html代码保留的，凡是不属于这几种的html代码统统过滤。

lont · 发表于 2007-5-20 22:19:47

楼主的想法太有用了

helps · 发表于 2007-8-6 16:02:13

原帖由 speculator 于 2007-5-14 16:14 发表
比如采集一篇普通文章，我们需要保留的html标记通常是<p(*)> <br(*)> <img(*)>，有时可能会保留<font(*)><b><strong>，其余的都可以去掉。
所以，建议火车头下一版本推出 ...

原来楼主早就想到了啊，这个方法我也提交给火车头了，不知道是否在3.2版得到加强：

关于html标签排除和标签:时间
1.关于--HTML标签排除
现在的html标签排除，虽然能排除大部分标签，但采集有时往往有自己想不到的标签没排除影响采集的整体内容。
我建议：建立反排除标签。
建议详细如下：目前，排除所有标签，用 <(*)> 可以解决，往往人们需要其中部分有用的标签，所以设置排除所有标签，但某部分除外：
如：<br...>、<a...>、<a img...><a href...>等等
此部分标签由人们来选择保留。
3.1使用的排除法因为有自己想不到的标签未排除，使用此法就可以轻松搞定。这样的话，就不用再想破脑袋该排除哪些html标签，而且还能解决排除大小写标签的问题，不用再为标签的大小号问题写一长串的排除规则了。
2.关于--标签:时间
标签：时间，希望能设置成在一定范围内随机时间，目前采集的文章时间都太相近，对搜索引擎收录有一定影响。
如果上面的时间不好实现，那么希望将目前的时间格式：2006年6月16日，修改为：2006-06-16。3此项时间使用中文的年月日，用数据库入库，结果数据库日期字段不能识别，成为：0000-00-00。其它的时间格式都没问题。

帐号		自动登录	找回密码
密码			加入会员

过滤规则的思路要换个方向，这样才能简单高效

浏览过的版块