超复杂的过滤规则?
<kadflj [新[浪[网asdfjklsadf><sadfjasfjl新///浪///网////adfjal>
<abbcc ::新::浪::网::ljdflasdjfa> (超多这些类似的)
有一个网站,防采做得太复杂了.
网站名,以上面新浪网替换了.
现在要过滤,
显然<(*)新(*)浪(*)网(*)>或者:新(*)浪(*)网(*) 都是无法过滤的,只要文章前面先出现一个"新",后面就直到出现一个"网"字的内容就全没了.
真不知道这类怎么过滤..哪位高手帮帮手,指教一下. 不要把自己弄得那么痛苦.. 楼上的话 值得考虑 你就不能不采集 带有这些字符的吗闭开他 <(*)> 原帖由 6sky 于 2007-9-3 00:30 发表 http://bbs.locoy.com/images/common/back.gif
版主高,这样全给清除了。
不过什么格式都没有了,全是文字,至少连个<br>总要用吧。总不能一篇文章一段都不分啊,:'(
还忘高手再帮忙不过来一下。
下面是常见的几种:
<XZC !~{]新~浪~网-版~权~所~有~非~法~复~制~必~定~追~究JDOSDKODP~~~.,>
</P><oqodoqno//浪////网////的////助////手////-////新////浪////网//sina.com.cn//nkcasx>
</P><oqodoqno//浪////网////的////助////手////-////新////浪////网//www.siNA.com//nkcasx>
</P><oqodoqno//浪////网////的////助////手////-////新////浪////网///nkcasx>
</P><oqodoqno//浪////网////的////助////手////-////新////浪////网////nkcasx>
<JKMCLAEIO版 权 所 有 - 新 浪 网 - 非 法 复 制 必 定 追究ndksamll>
<JKMCLAEIO版 权 所 有 - 新:浪:网 - 非:法:复:制:必:定:追究ndksamll>
另外问一下论坛有必要发贴加验证码吗,且那么难看。晕倒。。
[ 本帖最后由 cliffcrag 于 2007-9-3 20:35 编辑 ] 可以收集下他常见的,多写几个啊
比如<o(*)x> <J(*)l><X()*,>
:lol 原帖由 cliffcrag 于 2007-9-2 21:59 发表 http://bbs.locoy.com/images/common/back.gif
(超多这些类似的)
有一个网站,防采做得太复杂了.
网站名,以上面新浪网替换了.
现在要过滤,
显然或者:新(*)浪(*)网(*) 都是无法过滤的,只要文章前面先出现一个"新",后面就直到出现一个"网 ...
这个是火车头的正则的匹配模式的问题,一会提一个意见给他就是正则加上一个匹配模式的选项。但是为了一个两个这样的网站加东西不知道会不会得不偿失 原帖由 天蝎网子 于 2007-9-4 00:57 发表 http://bbs.locoy.com/images/common/back.gif
可以收集下他常见的,多写几个啊
比如
:lol
说得有道理,不过太多这种乱七八糟的代码了,没见过这么牛的防采的.
也盼有更多高手能帮忙一下.. 全部替换 原帖由 feng115 于 2007-9-5 00:07 发表 http://bbs.locoy.com/images/common/back.gif
全部替换
如何全部替换!
页:
[1]
2