网站抓取精灵火车采集器如何获取内容网址

yangjielewell · 发表于 2016-5-16 16:25:22

我们在使用网站抓取精灵做采集时，往往需要先从网页的初始网址开始获取内容页网址，那么火车采集器进入列表页后，如何进一步获取内容网址呢，下面就请新手们一起来看看内容页网址采集规则如何制作。
在火车采集器V9中，内容网址获取有常规模式和高级模式两种。
1.常规模式：该模式默认抓取一级地址，即从起始页源代码中获取到内容页A链接。它有两种方式：a.自动获取地址链接 b.手动设置规则获取。
2.高级模式：该模式对0级，多级，POST类型网址的抓取有效。即起始网址就是内容页网址；或者需要对多级列表网址采集才能得到最终内容页链接；或者是post网址类型抓取等情况下使用高级模式。
这里详细说明下常规模式中a和b两种方式采集的具体操作，高级模式待后续讲解。
[常规模式]a.自动获取地址链接
自动获取地址链接:自动获取该级列表页中所有的标签<a href="URL">内的URL链接。如新浪内地新闻：http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

获取结果如图：

根据统计我们可以看到，发现共计81个一级网址，但实际我们需要抓取的1级网址是每页40个，说明其中有我们不需要的链接，所以我们可以通过区域设置和链接过滤，来筛选获取我们所需要的链接。用浏览器点击查看网页源代码，分析源码得出，所需链接应符合以下条件：
开始字符串为<ul>结尾字符串为 

我们将其填入设置区域，再进行测试一次，并查看结果。通过测试可以看出结果是正确的，如下图。

[常规模式]b.手动设置规则获取

对于有些由脚本生成的网址，采集器不能自动识别，此时就要手动设置规则获取了。手动设置规则获取的原理是编写脚本规则，去和源代码里的内容匹配，获取到自己设置的参数即可。其中提取规则里的[参数]、(*) 、[标签:XXX] 都是通配符，可以统配任意字符，而区别在于[参数]有返回值，一般用于拼接地址，(*)没有返回值，[标签:XXX]有返回值，返回值给标签。如新浪内地新闻：http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

有如下源码：

此时，我们可以取其中的一条代码作为循环匹配，把我们要获取的链接替换成[参数]，需要采集到的值替换成标签。如下填写提取规则：

如上图，这样符合该格式的源码就会进行自动匹配，参数中获取到的就是内容页地址链接，标签中就分布是标题和时间了。

到这里，网站抓取精灵火车采集器V9获取内容网址的常规模式设置就完成了，大家只要看过就会觉得比较简单，火车采集器V9软件需要大家多学习，这样上手就会非常容易了。

mikewoo · 发表于 2016-8-29 20:15:58

还不错，WordPress4.5.3火车头采集器在线发布模块下载 http://bbs.locoy.com/forum.php?mod=viewthread&tid=149124

帐号		自动登录	找回密码
密码			加入会员