发新话题
打印

关于标签过滤的建议

关于标签过滤的建议

今天试用了一下小蜜蜂的采集,发现他的HTML标签过滤方式对付WORD垃圾标签很好。

小蜜蜂采取的是加法,如果不选中就不保留<(*)>的标签内容。而火车头采取的是减法,如果不选中就保留标签代码。所以,火车头对<o:p></o:p> <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />这样的WORD垃圾代码没有办法,只有人工一个个指定。

希望下一个版本能改进一下,改变过滤模式。或者可以模仿很多在线编辑器那样,多一个清除WORD代码的选项,因为由于维护人员的原因,此类垃圾代码的文章很多。

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.171392 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-2 02:39 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档