找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 16720|回复: 11

火车采集器V9:使用网页抓取工具抓取大众点评商家信息

[复制链接]
发表于 2015-11-13 09:56:23 | 显示全部楼层 |阅读模式
使用网页抓取工具可以抓取很多网页的内容,相比手动复制要高效许多,操作起来也非常容易,不过新手还是要学习一下。下面以大众点评网的商家信息为例讲解一下网页抓取工具是如何采集的,使用的网页抓取工具是目前使用人数最多的火车采集器V9,在官网上下载一个就可以了。
        大众点评网覆盖了美食,服务,电影等多种类型,我们以采集美食分类下的火锅为例,首先我们将火锅页面的地址填写在火车采集器V9的起始网址处。
dianping.com/search/category/110/10/g110
    通过起始网址可以获取到商家的地址,因为商家的页面地址通常可以在起始网址的源代码中找到,所以我们在火车采集器中设置获取规则将商家页面网址采集下来,如下图,我们用参数代表所有的商家页面网址。
    点击测试,验证一下网址采集规则是否正确,下图中可以看到我们已经采集到了商家页面的网址,即内容页。
    然后我们打开一个商家页面,页面中显示商家的名称、星级、口味、环境、服务、地址,电话。我们怎样把这些数据采集下来呢?在火车采集器V9中我们可以使用前后截取的方式,将数据前后的源代码填写下来,采集器就可以实施采集了。
    如上图,将每一个需要采集的字段在标签列表中列出,并分别填写前后字符串,填写完成后即可进行内容采集测试。随机选取一个页面,将地址填写在测试框中,如下图每一个字段已经被火车采集器采集下来了。我们将规则保存下来,并选择对应的数据保存方式,最后进行该任务的运行。
    不得不说火车采集器V9的采集速度很快,这里只采集一部分,如果需要所有数据还可以自行设置,大量数据的采集可以在火车采集器V9中实时调速。不仅是大众点评,美团,淘宝等几乎所有的网站都可以使用火车采集器这样的网页抓取工具来实施抓取,还可以发布到自己的数据库中,大幅提升工作效率。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2016-5-13 11:41:50 | 显示全部楼层
只能收集第一页的信息,怎么翻页收集啊?这些信息如何导出为excel表?
发表于 2017-8-7 17:27:01 | 显示全部楼层
大佬,为什么我的只爬出来了第一个0级网页下的1级网页呢
 楼主| 发表于 2017-8-7 17:41:10 | 显示全部楼层
pluto爱吃肉 发表于 2017-8-7 17:27
大佬,为什么我的只爬出来了第一个0级网页下的1级网页呢

抓包 加上UA试试
发表于 2017-8-24 08:41:29 | 显示全部楼层
lsd2015 发表于 2017-8-7 17:41
抓包 加上UA试试

怎么加?请赐教,谢谢
 楼主| 发表于 2017-8-24 08:54:43 | 显示全部楼层
challey 发表于 2017-8-24 08:41
怎么加?请赐教,谢谢

先用抓包软件抓出UA 然后在其他设置里添加
发表于 2017-12-20 11:33:08 | 显示全部楼层
你好哦。请问详情页里面的推荐菜的菜名要怎么采集呀,还有好评、中评、差评的数量,源代码里面一直找不到,谢谢你哦
发表于 2017-12-27 12:54:49 | 显示全部楼层
一直请求不到网页是怎么回事啊  错误代码403
发表于 2018-2-9 00:45:31 | 显示全部楼层
您好,采集规则就是按照您这个来写的,可是测试时完全没有内容,请问是什么情况啊?
发表于 2018-3-25 11:12:20 | 显示全部楼层
NB啊,大佬!
我花了一晚上没捣鼓出来的东西呢!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表