妖孽 发表于 2008-12-7 21:12:49

怎么去掉采集页面中的某个地址?[内详]

我准备采集个站,但是他的页面代码里做了防御
比如:
<td rowspan="4"><a target="_blank" href="http:http://www.newyx.net/http://www.newyx.net/www.newyx.nethttp://www.newyx.net/imghttp://www.newyx.net/dahttp://www.newyx.net/3821eb66_s.jpg"><img src="http:http://www.newyx.net/http://www.newyx.net/www.newyx.nethttp://www.newyx.net/imghttp://www.newyx.net/3821eb66_s.jpg" width="168" height="120" http://www.newyx.net/><http://www.newyx.net/a&gt;<http://www.newyx.net/td>
      <http://www.newyx.net/tr>
以上这样的代码
我想去掉代码中的网址干扰"http://www.newyx.net"
请问怎么去掉页面代码中的这个地址?
标签里没排除某些代码的功能啊

火车头 发表于 2008-12-7 21:12:50

这个是软件的一个bug..

去掉这个标签的 将相对地址替换为绝对地址~

rq204 发表于 2008-12-7 21:36:26

过滤不行吗?

妖孽 发表于 2008-12-7 21:47:45

过滤?内容排除?
内容排除的话不行

5949772 发表于 2008-12-9 00:42:21

你确定有干扰码码?
我测试了,怎么没有看到呀?
页: [1]
查看完整版本: 怎么去掉采集页面中的某个地址?[内详]