makewood 发表于 2010-4-2 03:51:19

请教<span>干扰码的过滤

采集时遇到个奇怪的问题.有时采集正常,有时前面采集了一段内容后在<span style="display:none">这里就会断掉,后面的内容采集不到.

干扰码主要为:<span style="display:none">}f$[$~-K?{%I0</span> 这样.

过滤规则为:<span style="display:none"><%var%></span> 替换掉.

为了保险,加多了一条<span<%var%>><%var%></span>


本来以为是:两个连续的span干扰码中的一个,:<span style="display:none">}f$[      ?{%I0</span> 之中出现空格所导致的.但是后来发现单独一个干扰码处也会断开,某个干扰码处断开后,<span style="display:none">采集到并成为文章结尾,而</span>后面的内容完全采集不到.

都市乞丐 发表于 2010-4-2 09:27:50

直接排除    <span style="display:none">(*)</span>

飛越無限 发表于 2010-4-2 13:29:31

注意一下过滤.类似于这样子的把所有要过滤的全部列出来然后找到相同的部分.然后不同的用(*)代替就可以过滤的了

makewood 发表于 2010-4-2 18:29:37

注意一下过滤.类似于这样子的把所有要过滤的全部列出来然后找到相同的部分.然后不同的用(*)代替就可以过滤的 ...
飛越無限 发表于 2010-4-2 13:29 http://bbs.locoy.com/images/common/back.gif


    谢谢老大,,我是这样过滤的.大部分文章都正常.


但是遇到干扰码中间有空格的时候,,就会在此处中断了.后面的文字都采集不到了.

飛越無限 发表于 2010-4-3 18:14:38

你说的这个情部不太可能的。这个标签的存在一般都是配对的,队非你写的规则之前过滤过其它的一些标签什么的。你只需要将这个标签放到过滤处的最前面,即最上面就可以解决的
页: [1]
查看完整版本: 请教<span>干扰码的过滤