lewell007 发表于 2015-11-18 09:54:39

火车采集器V9:网页数据抓取三步走

    “Volume、Variety、Velocity、Value”是数据的四大特性:体量巨大、种类多样、实时快速,高价值。随着各行各业对网页数据利用需求的日益增长,网页数据的复杂特性也使得采集变得更加困难,经过十年更新迭代的火车采集器告诉我们网页数据抓取只需三步走:
第一步:分析

当我们有了抓取目标后,第一步就是分析。首先是分析页面的特点,网页一般包括静态页面、伪静态页面以及动态页面。静态网页URL以.htm、.html、.shtml等常见形式为后缀,动态页面则是以.asp、.jsp、.php、.perl、.cgi等形式为后缀,并且在动态网页网址中有一个标志性的符号——“?”。相对来说静态页面采集比较容易一些,比如一些新闻页面,功能比较简单;而像论坛就属于动态页面,它的后台服务器会自动更新,这样的页面采集时涉及到的功能就多一些,相对比较复杂。
其次是分析数据,我们需要的数据是如何展现的,是否有列表分页、内容分页或是多页?需要的数据是图片还是文本还是其他文件?
最后需要分析的是源代码,根据我们需要采集到的数据,依次找出它们的源代码及相关规律,方便后续在采集工具中得以体现。
第二步:获取

这里需要用到经典的抓取工具火车采集器V9,火车采集器获取数据的原理就是基于WEB结构的源代码提取,因此在第一步中分析源代码是非常重要的。我们在火车采集器V9中对每一项需要的数据设置获取规则,将它提取出来。在火车采集器中,可以手动获取,也支持部分类型的数据自动识别提取。分析正确的前提下,获取数据非常便捷。
第三步:处理

获取到的数据如果可以直接用那么就无需进行这一步,如果还需要让数据更加符合要求,就需要使用火车采集器V9强大的处理功能了。比如标签过滤;敏感词,近义词替换/排除;数据转换;补全单网址;智能提取图片、邮箱,电话号码等智能化的处理体系,必要的话还可以开发插件进行处理。
按照上述的这三个步骤,网页数据抓取其实并不难,除了加强对软件操作的熟悉度之外,我们还需要提高自身的分析能力和网页相关的技术知识,那么网页数据抓取将更加得心应手。

devsunny 发表于 2015-11-19 15:37:50

不错,学习了

lbjyuer 发表于 2016-2-6 23:47:08


不错,学习了

senwar 发表于 2016-2-18 09:59:33

感谢分享:lol
页: [1]
查看完整版本: 火车采集器V9:网页数据抓取三步走