cliffcrag 发表于 2007-9-2 21:59:14

超复杂的过滤规则?

<kadflj [新[浪[网asdfjklsadf>

<sadfjasfjl新///浪///网////adfjal>

<abbcc ::新::浪::网::ljdflasdjfa> (超多这些类似的)


有一个网站,防采做得太复杂了.

网站名,以上面新浪网替换了.

现在要过滤,
显然<(*)新(*)浪(*)网(*)>或者:新(*)浪(*)网(*)    都是无法过滤的,只要文章前面先出现一个"新",后面就直到出现一个"网"字的内容就全没了.

真不知道这类怎么过滤..哪位高手帮帮手,指教一下.

rq204 发表于 2007-9-2 22:41:46

不要把自己弄得那么痛苦..

ys51999 发表于 2007-9-2 23:05:24

楼上的话 值得考虑   你就不能不采集 带有这些字符的吗闭开他

6sky 发表于 2007-9-3 00:30:00

<(*)>

cliffcrag 发表于 2007-9-3 20:34:47

原帖由 6sky 于 2007-9-3 00:30 发表 http://bbs.locoy.com/images/common/back.gif


版主高,这样全给清除了。


不过什么格式都没有了,全是文字,至少连个<br>总要用吧。总不能一篇文章一段都不分啊,:'(

还忘高手再帮忙不过来一下。

下面是常见的几种:

<XZC   !~{]新~浪~网-版~权~所~有~非~法~复~制~必~定~追~究JDOSDKODP~~~.,>
</P><oqodoqno//浪////网////的////助////手////-////新////浪////网//sina.com.cn//nkcasx>
</P><oqodoqno//浪////网////的////助////手////-////新////浪////网//www.siNA.com//nkcasx>
</P><oqodoqno//浪////网////的////助////手////-////新////浪////网///nkcasx>
</P><oqodoqno//浪////网////的////助////手////-////新////浪////网////nkcasx>

<JKMCLAEIO版 权 所 有 - 新 浪 网 - 非 法 复 制 必 定 追究ndksamll>
<JKMCLAEIO版 权 所 有 - 新:浪:网 - 非:法:复:制:必:定:追究ndksamll>


另外问一下论坛有必要发贴加验证码吗,且那么难看。晕倒。。

[ 本帖最后由 cliffcrag 于 2007-9-3 20:35 编辑 ]

天蝎网子 发表于 2007-9-4 00:57:28

可以收集下他常见的,多写几个啊

比如<o(*)x>    <J(*)l><X()*,>

:lol

iolocoy 发表于 2007-9-4 02:36:42

原帖由 cliffcrag 于 2007-9-2 21:59 发表 http://bbs.locoy.com/images/common/back.gif




(超多这些类似的)


有一个网站,防采做得太复杂了.

网站名,以上面新浪网替换了.

现在要过滤,
显然或者:新(*)浪(*)网(*)    都是无法过滤的,只要文章前面先出现一个"新",后面就直到出现一个"网 ...

这个是火车头的正则的匹配模式的问题,一会提一个意见给他就是正则加上一个匹配模式的选项。但是为了一个两个这样的网站加东西不知道会不会得不偿失

cliffcrag 发表于 2007-9-4 21:12:34

原帖由 天蝎网子 于 2007-9-4 00:57 发表 http://bbs.locoy.com/images/common/back.gif
可以收集下他常见的,多写几个啊

比如      

:lol
说得有道理,不过太多这种乱七八糟的代码了,没见过这么牛的防采的.

也盼有更多高手能帮忙一下..

feng115 发表于 2007-9-5 00:07:46

全部替换

cliffcrag 发表于 2007-9-5 21:54:07

原帖由 feng115 于 2007-9-5 00:07 发表 http://bbs.locoy.com/images/common/back.gif
全部替换
如何全部替换!
页: [1] 2
查看完整版本: 超复杂的过滤规则?