找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3990|回复: 0

关于标签过滤的建议

[复制链接]
发表于 2006-12-18 20:42:13 | 显示全部楼层 |阅读模式
今天试用了一下小蜜蜂的采集,发现他的HTML标签过滤方式对付WORD垃圾标签很好。

小蜜蜂采取的是加法,如果不选中就不保留<(*)>的标签内容。而火车头采取的是减法,如果不选中就保留标签代码。所以,火车头对<o:p></o:p> <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />这样的WORD垃圾代码没有办法,只有人工一个个指定。

希望下一个版本能改进一下,改变过滤模式。或者可以模仿很多在线编辑器那样,多一个清除WORD代码的选项,因为由于维护人员的原因,此类垃圾代码的文章很多。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表