lhq5189935 发表于 2015-8-17 16:23:14

求助, 58网址采集,无法去重复

采集的是58租房频道
http://wx.58.com/chuzu/0/

这样可以采集到网址,但是网址格式如图

后面总是带好多参数,而且每次采集出来的网址都不一样,同上条信息会采集多次,如果用手动填写链接地址规则,如下图。网址根本就获取不到,请大神指点一二,谢谢

imfly 发表于 2015-8-17 16:36:24

脚本规则写成<td class="t qj-rentd">(*)<a href="[参数]"
区域从<col class="wrentm">到<script>

d0tc0m 发表于 2015-8-18 18:52:44

这个你应该上百度搜搜看看

youandi 发表于 2015-8-18 22:05:45

2楼正解啊,你这规则,源码里面类似的好多,你怎么可能不重复

lhq5189935 发表于 2015-8-19 16:31:23

可以了,谢谢大神

sofeiall 发表于 2015-8-20 09:36:04

我无能为力咯!

kimoslif 发表于 2015-8-23 16:48:12

这个你应该上百度搜搜看看

hanbingtel 发表于 2015-8-24 04:02:59

网址过滤,用通配符,把那些后面的尾巴去掉。

xumx1986 发表于 2015-8-24 12:20:27

嘿嘿。。这个问题。。

liyiko 发表于 2015-8-25 12:38:17

好像帮不上什么,百度看看吧!
页: [1] 2
查看完整版本: 求助, 58网址采集,无法去重复