windtime 发表于 2008-7-27 10:33:57

如何过滤文章内指定的<a 标记,但要保留其他的<a

我要采集的原文内有这样的链接是我要过滤掉,只保留文字就行了 (视频,编解码器)

<A href="/SEARCH/ART/视频.HTM"   target="_blank">视频</A>
<A href="/SEARCH/ART/编解码器.HTM"   target="_blank">编解码器</A>

但文章内还有别的比如下面的链接,这个链接我是要保留的,请问如何处理这样的情况?

<A HREF="/2006OCT/PDF/Design_Of_an_Efficient_MPEG_processor.pdf?SOURCES=DOWNLOAD" target="blank">下载PDF格式全文</A>

xiaozhang 发表于 2008-7-27 11:01:07

可以用正则直接去掉

可以用正则直接去掉

windtime 发表于 2008-7-27 11:19:23

正则怎么写啊,能不能举个例子

sengl 发表于 2008-7-28 07:30:22

笨方法: 直接排除掉
<A href="/SEARCH/(*)HTM"   target="_blank">
视频</A>这个替换成视频

这方法够笨吧

zydxdx 发表于 2008-7-28 16:00:05

支持下 楼上的方法很通俗实在 ~
页: [1]
查看完整版本: 如何过滤文章内指定的<a 标记,但要保留其他的<a