火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4920|回复: 10

求助, 58网址采集,无法去重复

[复制链接]
发表于 2015-8-17 16:23:14 | 显示全部楼层 |阅读模式
采集的是58租房频道
http://wx.58.com/chuzu/0/

这样可以采集到网址,但是网址格式如图

后面总是带好多参数,而且每次采集出来的网址都不一样,同上条信息会采集多次,如果用手动填写链接地址规则,如下图。网址根本就获取不到,请大神指点一二,谢谢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2015-8-17 16:36:24 | 显示全部楼层
脚本规则写成<td class="t qj-rentd">(*)<a href="[参数]"
区域从<col class="wrentm">到<script>
发表于 2015-8-18 18:52:44 | 显示全部楼层
这个你应该上百度搜搜看看
发表于 2015-8-18 22:05:45 | 显示全部楼层
2楼正解啊,你这规则,源码里面类似的好多,你怎么可能不重复
 楼主| 发表于 2015-8-19 16:31:23 | 显示全部楼层
可以了,谢谢大神
发表于 2015-8-20 09:36:04 | 显示全部楼层
我无能为力咯!
发表于 2015-8-23 16:48:12 | 显示全部楼层
这个你应该上百度搜搜看看
发表于 2015-8-24 04:02:59 | 显示全部楼层
网址过滤,用通配符,把那些后面的尾巴去掉。
发表于 2015-8-24 12:20:27 | 显示全部楼层
嘿嘿。。这个问题。。
发表于 2015-8-25 12:38:17 | 显示全部楼层
好像帮不上什么,百度看看吧!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 04:22

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表