请教<span>干扰码的过滤
采集时遇到个奇怪的问题.有时采集正常,有时前面采集了一段内容后在<span style="display:none">这里就会断掉,后面的内容采集不到.干扰码主要为:<span style="display:none">}f$[$~-K?{%I0</span> 这样.
过滤规则为:<span style="display:none"><%var%></span> 替换掉.
为了保险,加多了一条<span<%var%>><%var%></span>
本来以为是:两个连续的span干扰码中的一个,:<span style="display:none">}f$[ ?{%I0</span> 之中出现空格所导致的.但是后来发现单独一个干扰码处也会断开,某个干扰码处断开后,<span style="display:none">采集到并成为文章结尾,而</span>后面的内容完全采集不到. 直接排除 <span style="display:none">(*)</span> 注意一下过滤.类似于这样子的把所有要过滤的全部列出来然后找到相同的部分.然后不同的用(*)代替就可以过滤的了 注意一下过滤.类似于这样子的把所有要过滤的全部列出来然后找到相同的部分.然后不同的用(*)代替就可以过滤的 ...
飛越無限 发表于 2010-4-2 13:29 http://bbs.locoy.com/images/common/back.gif
谢谢老大,,我是这样过滤的.大部分文章都正常.
但是遇到干扰码中间有空格的时候,,就会在此处中断了.后面的文字都采集不到了. 你说的这个情部不太可能的。这个标签的存在一般都是配对的,队非你写的规则之前过滤过其它的一些标签什么的。你只需要将这个标签放到过滤处的最前面,即最上面就可以解决的
页:
[1]