火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2075|回复: 4

请教<span>干扰码的过滤

[复制链接]
发表于 2010-4-2 03:51:19 | 显示全部楼层 |阅读模式
采集时遇到个奇怪的问题.有时采集正常,有时前面采集了一段内容后在<span style="display:none">这里就会断掉,后面的内容采集不到.

干扰码主要为:<span style="display:none">}f$[$~-K?{%I0</span> 这样.

过滤规则为:<span style="display:none"><%var%></span> 替换掉.

为了保险,加多了一条<span<%var%>><%var%></span>


本来以为是:两个连续的span干扰码中的一个,:<span style="display:none">}f$[      ?{%I0</span> 之中出现空格所导致的.但是后来发现单独一个干扰码处也会断开,某个干扰码处断开后,<span style="display:none">采集到并成为文章结尾,而</span>后面的内容完全采集不到.
发表于 2010-4-2 09:27:50 | 显示全部楼层
直接排除    <span style="display:none">(*)</span>
发表于 2010-4-2 13:29:31 | 显示全部楼层
注意一下过滤.类似于这样子的把所有要过滤的全部列出来然后找到相同的部分.然后不同的用(*)代替就可以过滤的了
 楼主| 发表于 2010-4-2 18:29:37 | 显示全部楼层
注意一下过滤.类似于这样子的把所有要过滤的全部列出来然后找到相同的部分.然后不同的用(*)代替就可以过滤的 ...
飛越無限 发表于 2010-4-2 13:29



    谢谢老大,,我是这样过滤的.大部分文章都正常.


但是遇到干扰码中间有空格的时候,,就会在此处中断了.后面的文字都采集不到了.
发表于 2010-4-3 18:14:38 | 显示全部楼层
你说的这个情部不太可能的。这个标签的存在一般都是配对的,队非你写的规则之前过滤过其它的一些标签什么的。你只需要将这个标签放到过滤处的最前面,即最上面就可以解决的
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-19 03:18

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表