怎么去掉采集页面中的某个地址?[内详]
我准备采集个站,但是他的页面代码里做了防御比如:
<td rowspan="4"><a target="_blank" href="http:http://www.newyx.net/http://www.newyx.net/www.newyx.nethttp://www.newyx.net/imghttp://www.newyx.net/dahttp://www.newyx.net/3821eb66_s.jpg"><img src="http:http://www.newyx.net/http://www.newyx.net/www.newyx.nethttp://www.newyx.net/imghttp://www.newyx.net/3821eb66_s.jpg" width="168" height="120" http://www.newyx.net/><http://www.newyx.net/a><http://www.newyx.net/td>
<http://www.newyx.net/tr>
以上这样的代码
我想去掉代码中的网址干扰"http://www.newyx.net"
请问怎么去掉页面代码中的这个地址?
标签里没排除某些代码的功能啊 这个是软件的一个bug..
去掉这个标签的 将相对地址替换为绝对地址~ 过滤不行吗? 过滤?内容排除?
内容排除的话不行 你确定有干扰码码?
我测试了,怎么没有看到呀?
页:
[1]