火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7671|回复: 10

超复杂的过滤规则?

[复制链接]
发表于 2007-9-2 21:59:14 | 显示全部楼层 |阅读模式
<kadflj [新[浪[网asdfjklsadf>

<sadfjasfjl  新///浪///网////adfjal>

<abbcc ::新::浪::网::ljdflasdjfa> (超多这些类似的)


有一个网站,防采做得太复杂了.

网站名,以上面新浪网替换了.

现在要过滤,
显然<(*)新(*)浪(*)网(*)>  或者:新(*)浪(*)网(*)    都是无法过滤的,只要文章前面先出现一个"新",后面就直到出现一个"网"字的内容就全没了.

真不知道这类怎么过滤..哪位高手帮帮手,指教一下.
发表于 2007-9-2 22:41:46 | 显示全部楼层
不要把自己弄得那么痛苦..
发表于 2007-9-2 23:05:24 | 显示全部楼层
楼上的话 值得考虑   你就不能不采集 带有这些字符的吗  闭开他
发表于 2007-9-3 00:30:00 | 显示全部楼层
<(*)>
 楼主| 发表于 2007-9-3 20:34:47 | 显示全部楼层
原帖由 6sky 于 2007-9-3 00:30 发表


版主高,这样全给清除了。


不过什么格式都没有了,全是文字,至少连个<br>总要用吧。总不能一篇文章一段都不分啊,:'(

还忘高手再帮忙不过来一下。

下面是常见的几种:

<XZC   !~{]新~浪~网-版~权~所~有~非~法~复~制~必~定~追~究JDOSDKODP~~~.,>
</P><oqodoqno  //浪////网////的////助////手////-////新////浪////网//sina.com.cn//nkcasx>
</P><oqodoqno  //浪////网////的////助////手////-////新////浪////网//www.siNA.com//nkcasx>
</P><oqodoqno  //浪////网////的////助////手////-////新////浪////网///nkcasx>
</P><oqodoqno  //浪////网////的////助////手////-////新////浪////网////nkcasx>

<JKMCLAEIO  版 权 所 有 - 新 浪 网 - 非 法 复 制 必 定 追究  ndksamll>
<JKMCLAEIO  版 权 所 有 - 新:浪:网 - 非:法:复:制:必:定:追究  ndksamll>


另外问一下论坛有必要发贴加验证码吗,且那么难看。晕倒。。

[ 本帖最后由 cliffcrag 于 2007-9-3 20:35 编辑 ]
发表于 2007-9-4 00:57:28 | 显示全部楼层
可以收集下他常见的,多写几个啊

比如<o(*)x>    <J(*)l>  <X()*,>

发表于 2007-9-4 02:36:42 | 显示全部楼层
原帖由 cliffcrag 于 2007-9-2 21:59 发表




  (超多这些类似的)


有一个网站,防采做得太复杂了.

网站名,以上面新浪网替换了.

现在要过滤,
显然  或者:新(*)浪(*)网(*)    都是无法过滤的,只要文章前面先出现一个"新",后面就直到出现一个"网 ...


这个是火车头的正则的匹配模式的问题,一会提一个意见给他就是正则加上一个匹配模式的选项。但是为了一个两个这样的网站加东西不知道会不会得不偿失
 楼主| 发表于 2007-9-4 21:12:34 | 显示全部楼层
原帖由 天蝎网子 于 2007-9-4 00:57 发表
可以收集下他常见的,多写几个啊

比如      


说得有道理,不过太多这种乱七八糟的代码了,没见过这么牛的防采的.

也盼有更多高手能帮忙一下..
发表于 2007-9-5 00:07:46 | 显示全部楼层
全部替换
 楼主| 发表于 2007-9-5 21:54:07 | 显示全部楼层
原帖由 feng115 于 2007-9-5 00:07 发表
全部替换

如何全部替换!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-25 16:16

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表