火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3365|回复: 3

火车头识别网页源代码里面的标签,不准确,容易出问题,不兼容

[复制链接]
发表于 2013-5-9 14:42:22 | 显示全部楼层 |阅读模式
就比如过滤,勾选了DIV标签。</div>然后不过滤?多么低级的BUG

勾选过滤<h>标签,发现只过滤</h1>. h1前部分别人加点东西就过滤不掉了?
类似很常见的还有STONG标签,B标签

放上去字体都乱了呀? 怎么能过滤 标签的前半部分或后半部分呢?

还有就比如图片。<img  后面加上特性,多了就识别不了了?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2013-5-9 16:35:27 | 显示全部楼层
嗯 标签里面加了太多东西的是没有办法过滤 不能过滤的你可以试试用替换比如你上面说的img 可以这样替换

<img(*)/> 替换为空 就是把那些标签添加的内容用星号代替
 楼主| 发表于 2013-5-9 20:41:24 | 显示全部楼层
要是这么多标签,我都手动 按大小写处理下,那要多久?
/DIV
H1
这些标签为啥就过滤不了,还要用户手工过滤
IMG 的,是不是 我都要设置下,是不是太麻烦了
发表于 2013-5-10 09:19:10 | 显示全部楼层
caijihome 发表于 2013-5-9 20:41
要是这么多标签,我都手动 按大小写处理下,那要多久?
/DIV
H1

目前是顾虑一些常规的代码 加了 属性的 过滤 可能不是很完美 建议用替换
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-23 12:32

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表