使用 网页抓取工具可以抓取很多网页的内容,相比手动复制要高效许多,操作起来也非常容易,不过新手还是要学习一下。下面以大众点评网的商家信息为例讲解一下网页抓取工具是如何采集的,使用的网页抓取工具是目前使用人数最多的火车 采集器V9,在官网上下载一个就可以了。 大众点评网覆盖了美食,服务,电影等多种类型,我们以采集美食分类下的火锅为例,首先我们将火锅页面的地址填写在火车采集器V9的起始网址处。 dianping.com/search/category/110/10/g110 通过起始网址可以获取到商家的地址,因为商家的页面地址通常可以在起始网址的源代码中找到,所以我们在火车采集器中设置获取规则将商家页面网址采集下来,如下图,我们用参数代表所有的商家页面网址。 点击测试,验证一下网址采集规则是否正确,下图中可以看到我们已经采集到了商家页面的网址,即内容页。 然后我们打开一个商家页面,页面中显示商家的名称、星级、口味、环境、服务、地址,电话。我们怎样把这些数据采集下来呢?在火车采集器V9中我们可以使用前后截取的方式,将数据前后的源代码填写下来,采集器就可以实施采集了。 如上图,将每一个需要采集的字段在标签列表中列出,并分别填写前后字符串,填写完成后即可进行内容采集测试。随机选取一个页面,将地址填写在测试框中,如下图每一个字段已经被火车采集器采集下来了。我们将规则保存下来,并选择对应的数据保存方式,最后进行该任务的运行。 不得不说火车采集器V9的采集速度很快,这里只采集一部分,如果需要所有数据还可以自行设置,大量数据的采集可以在火车采集器V9中实时调速。不仅是大众点评,美团,淘宝等几乎所有的网站都可以使用火车采集器这样的网页抓取工具来实施抓取,还可以发布到自己的数据库中,大幅提升工作效率。
|