关于标签过滤的建议
今天试用了一下小蜜蜂的采集,发现他的HTML标签过滤方式对付WORD垃圾标签很好。小蜜蜂采取的是加法,如果不选中就不保留<(*)>的标签内容。而火车头采取的是减法,如果不选中就保留标签代码。所以,火车头对<o:p></o:p> <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />这样的WORD垃圾代码没有办法,只有人工一个个指定。
希望下一个版本能改进一下,改变过滤模式。或者可以模仿很多在线编辑器那样,多一个清除WORD代码的选项,因为由于维护人员的原因,此类垃圾代码的文章很多。
页:
[1]