求助, 58网址采集,无法去重复
采集的是58租房频道http://wx.58.com/chuzu/0/
这样可以采集到网址,但是网址格式如图
后面总是带好多参数,而且每次采集出来的网址都不一样,同上条信息会采集多次,如果用手动填写链接地址规则,如下图。网址根本就获取不到,请大神指点一二,谢谢
脚本规则写成<td class="t qj-rentd">(*)<a href="[参数]"
区域从<col class="wrentm">到<script> 这个你应该上百度搜搜看看 2楼正解啊,你这规则,源码里面类似的好多,你怎么可能不重复 可以了,谢谢大神 我无能为力咯! 这个你应该上百度搜搜看看 网址过滤,用通配符,把那些后面的尾巴去掉。 嘿嘿。。这个问题。。 好像帮不上什么,百度看看吧!
页:
[1]
2