火车头识别网页源代码里面的标签，不准确，容易出问题，不兼容

caijihome 发表于 2013-5-9 14:42:22

就比如过滤，勾选了DIV标签。</div>然后不过滤？多么低级的BUG

勾选过滤<h>标签，发现只过滤</h1>. h1前部分别人加点东西就过滤不掉了？
类似很常见的还有STONG标签，B标签

放上去字体都乱了呀？怎么能过滤标签的前半部分或后半部分呢？

还有就比如图片。<img后面加上特性，多了就识别不了了？
http://bbs.locoy.com/data/attachment/forum/201305/07/1447342z02pmxcsp6rs600.jpg

leejunji 发表于 2013-5-9 16:35:27

嗯标签里面加了太多东西的是没有办法过滤不能过滤的你可以试试用替换比如你上面说的img 可以这样替换

<img(*)/> 替换为空就是把那些标签添加的内容用星号代替

caijihome 发表于 2013-5-9 20:41:24

要是这么多标签，我都手动按大小写处理下，那要多久？
/DIV
H1
这些标签为啥就过滤不了，还要用户手工过滤
IMG 的，是不是我都要设置下，是不是太麻烦了

leejunji 发表于 2013-5-10 09:19:10

caijihome 发表于 2013-5-9 20:41 static/image/common/back.gif
要是这么多标签，我都手动按大小写处理下，那要多久？
/DIV
H1

目前是顾虑一些常规的代码加了属性的过滤可能不是很完美建议用替换

页: [1]

火车采集器软件交流官方论坛's Archiver

火车头识别网页源代码里面的标签，不准确，容易出问题，不兼容