火车采集器V9:使用网页抓取工具抓取大众点评商家信息
使用网页抓取工具可以抓取很多网页的内容,相比手动复制要高效许多,操作起来也非常容易,不过新手还是要学习一下。下面以大众点评网的商家信息为例讲解一下网页抓取工具是如何采集的,使用的网页抓取工具是目前使用人数最多的火车采集器V9,在官网上下载一个就可以了。 大众点评网覆盖了美食,服务,电影等多种类型,我们以采集美食分类下的火锅为例,首先我们将火锅页面的地址填写在火车采集器V9的起始网址处。dianping.com/search/category/110/10/g110 通过起始网址可以获取到商家的地址,因为商家的页面地址通常可以在起始网址的源代码中找到,所以我们在火车采集器中设置获取规则将商家页面网址采集下来,如下图,我们用参数代表所有的商家页面网址。 点击测试,验证一下网址采集规则是否正确,下图中可以看到我们已经采集到了商家页面的网址,即内容页。 然后我们打开一个商家页面,页面中显示商家的名称、星级、口味、环境、服务、地址,电话。我们怎样把这些数据采集下来呢?在火车采集器V9中我们可以使用前后截取的方式,将数据前后的源代码填写下来,采集器就可以实施采集了。 如上图,将每一个需要采集的字段在标签列表中列出,并分别填写前后字符串,填写完成后即可进行内容采集测试。随机选取一个页面,将地址填写在测试框中,如下图每一个字段已经被火车采集器采集下来了。我们将规则保存下来,并选择对应的数据保存方式,最后进行该任务的运行。 不得不说火车采集器V9的采集速度很快,这里只采集一部分,如果需要所有数据还可以自行设置,大量数据的采集可以在火车采集器V9中实时调速。不仅是大众点评,美团,淘宝等几乎所有的网站都可以使用火车采集器这样的网页抓取工具来实施抓取,还可以发布到自己的数据库中,大幅提升工作效率。只能收集第一页的信息,怎么翻页收集啊?这些信息如何导出为excel表?
大佬,为什么我的只爬出来了第一个0级网页下的1级网页呢 pluto爱吃肉 发表于 2017-8-7 17:27
大佬,为什么我的只爬出来了第一个0级网页下的1级网页呢
抓包 加上UA试试 lsd2015 发表于 2017-8-7 17:41
抓包 加上UA试试
怎么加?请赐教,谢谢 challey 发表于 2017-8-24 08:41
怎么加?请赐教,谢谢
先用抓包软件抓出UA 然后在其他设置里添加 你好哦。请问详情页里面的推荐菜的菜名要怎么采集呀,还有好评、中评、差评的数量,源代码里面一直找不到,谢谢你哦 一直请求不到网页是怎么回事啊错误代码403 您好,采集规则就是按照您这个来写的,可是测试时完全没有内容,请问是什么情况啊? NB啊,大佬!
我花了一晚上没捣鼓出来的东西呢!
页:
[1]
2