caijihome 发表于 2013-5-9 14:42:22

火车头识别网页源代码里面的标签,不准确,容易出问题,不兼容

就比如过滤,勾选了DIV标签。</div>然后不过滤?多么低级的BUG

勾选过滤<h>标签,发现只过滤</h1>. h1前部分别人加点东西就过滤不掉了?
类似很常见的还有STONG标签,B标签

放上去字体都乱了呀? 怎么能过滤 标签的前半部分或后半部分呢?

还有就比如图片。<img后面加上特性,多了就识别不了了?
http://bbs.locoy.com/data/attachment/forum/201305/07/1447342z02pmxcsp6rs600.jpg

leejunji 发表于 2013-5-9 16:35:27

嗯 标签里面加了太多东西的是没有办法过滤 不能过滤的你可以试试用替换比如你上面说的img 可以这样替换

<img(*)/> 替换为空 就是把那些标签添加的内容用星号代替

caijihome 发表于 2013-5-9 20:41:24

要是这么多标签,我都手动 按大小写处理下,那要多久?
/DIV
H1
这些标签为啥就过滤不了,还要用户手工过滤
IMG 的,是不是 我都要设置下,是不是太麻烦了

leejunji 发表于 2013-5-10 09:19:10

caijihome 发表于 2013-5-9 20:41 static/image/common/back.gif
要是这么多标签,我都手动 按大小写处理下,那要多久?
/DIV
H1


目前是顾虑一些常规的代码 加了 属性的 过滤 可能不是很完美 建议用替换
页: [1]
查看完整版本: 火车头识别网页源代码里面的标签,不准确,容易出问题,不兼容