关于标签过滤的建议

heidian 发表于 2006-12-18 20:42:13

今天试用了一下小蜜蜂的采集，发现他的HTML标签过滤方式对付WORD垃圾标签很好。

小蜜蜂采取的是加法，如果不选中就不保留<(*)>的标签内容。而火车头采取的是减法，如果不选中就保留标签代码。所以，火车头对<o:p></o:p> <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />这样的WORD垃圾代码没有办法，只有人工一个个指定。

希望下一个版本能改进一下，改变过滤模式。或者可以模仿很多在线编辑器那样，多一个清除WORD代码的选项，因为由于维护人员的原因，此类垃圾代码的文章很多。

页: [1]

火车采集器软件交流官方论坛's Archiver

关于标签过滤的建议