对于互联网及移动互联网网页中每天更新的大量新闻、热点,技术教程等类型的文章,有什么快速的方法能够进行准确的提取来应用到自己的工作中呢?一篇篇复制下载确实非常繁琐,为了节省时间提高效率,推荐大家使用文章采集软件来操作,火车采集器V9就是一个可以快速实现文章采集的工具,而且灵活性非常强,不仅可以通过规则设置复杂的采集,还可以一步到位,设置正文自动提取。 文章采集软件大多是利用源代码解析对文章的开始和结束字符进行截取,实现内容的采集,火车采集器设置规则的时候就是基于此种原理,而正文提取功能则是在火车采集器中配备了一种正文提取算法,可以自动识别正文。有了这个功能操作起来就更加方便了,如果文章的格式并不是非常规则,那么就采用前后截取的方法。 第一步:网址采集规则 1、添加起始网址:按照给出的网址打开腾讯新闻,发现新闻页面是以列表分页的形式展现的,那么首先就要把列表页的地址作为起始网址先添加到火车采集器中。 这里我们以添加6页为例,我们可以点开这6个分页的网址一条条的添加到采集器中。但是如果我们要添加的网址很多,几百或上千条,那么一条条的进行添加就过于繁琐,所以我们可以试着找出网址之间的变化规律,进行批量添加。 我们分别打开第一页、第二页……观察其网址变化,可以发现除了第一页之外,后面的分页网址都是以“_数字”递增的规律变化的,如下:
那么我们首先将不符合规律的第一页网址“http://news.qq.com/newssh/shwx/shehuiwanxiang.htm”添加到起始网址的列表中如下: 第一页添加好了,那么后面的列表分页我们选择向导添加——批量网址添加,用一个通用的格式自动形成所需要的网址,网址中的变量就可以用地址参数来代替,地址参数的规律需要我们设置一下,上述规律就是从2开始,以1为递增量,共计5项。填写完成后火车采集器V9自动生成预览如下图,点击确定后起始网址(这里就是列表页网址)就添加好了。
2、获取内容页网址:通过观察新闻页面可以发现列表分页的下一级就是内容页,那么内容页网址就是一级网址(列表页为0级网址),这里我们使用最简单的“自动获取地址链接”的方式,通过分析列表页面的源代码,可以找出新闻内容页地址所在的区域,其开始字符为:“<div class="mod newslist">”,结束字符为:“</div>”。填写之后火车采集器会在这个区域内自动识别地址链接,我们点击网址采集测试就可以看到我们设置的规则采集到列表页和内容页网址是否正确和完整。
第二步、内容采集规则1、标签编辑:标签列表可以进行标签的增加、编辑、删除、复制等,我们首先添加一个标题标签,将文章的标题采下来。文章的标题我们设置从默认页的源码中获取,以前后截取的方式为例。 打开某一新闻内容页,分析页面的源代码,在源代码中找出标题,我们搜索标题会发现,源代码中出现了多次标题,而我们需要根据代码常识找到唯一的那个标题的前后字符串,即“<title>标题</title>”如下:
2、数据处理:“<title>标题</title>”中的标题有不需要的部分:“_新闻_腾讯网”,那么我们就将标题处理一下,添加一个数据替换处理,将“_新闻_腾讯网”替换为空,如下图。这样“月饼厂员工私售月饼包装混乱 被发现后拒退换_新闻_腾讯网”就变成了“月饼厂员工私售月饼包装混乱 被发现后拒退换”。
我们再添加一个内容标签,将新闻的内容采集下来,同样的方法找出内容页的唯一前后字符串,注意:内容前后连接的字符串不一定就是我们要找的,也可能是段落,图片等代码,因此对代码不是非常了解的用户最好反复试几次确认一下。 设置完成后点击测试一下,看看采集到内容中有哪些不符合要求的,使用数据处理进行修改。这里我们把html标签排除掉:
采集内容的规则设置完成后,我们选取一个页面进行测试,看看采集到的内容是否符合要求,如果不符合还需要进行规则的修正。火车采集器V9的应用是非常灵活的,规则的设置可以用多种方法,也可以有多种形式,新手多使用几次就会很容易上手。下图可以看到我们已经采集到了标题、内容,如果有需要还可以采集时间、作者,相关阅读等。
火车采集器V9采集大量的文章时也可以保持较快的速度,无论是采集文章用于更新自己的数据库还是下载资料用于学习研究,使用文章采集软件都是提高效率的最佳选择。 |