【东哥福利】火车采集器V9智联招聘信息采集规则分享
今天给大家分享智联招聘网站的招聘信息采集规则,主要用到了列表页标签、多页网址功能。下面的案例讲解给大家详细讲解!
本规则采集智联招聘网站招聘信息为例,本规则以默认采集您IP所在城市的所有类别招聘信息。
如需要采集某个城市或全国的招聘信息,可自行研究,可以加我微信tony_lsd进行咨询。加时一定要注明:火车采集器 否则不与通过。
本规则为火车采集器V9版规则,其他低版本不可使用。
本规则因使用了列表页标签功能及多级网址功能免费版用户不可使用。
本规则仅供广大用户学习交流参考,不可用以违法目的或商业用途,我们不对因使用此规则造成的任何法律问题承担责任。
商业版用户有问题或付费定制规则请联系官方客服QQ:800019423 服务热线:400-8757-060
【案例讲解】
第一步:设置起始网址
打开网址:http://sou.zhaopin.com/ 同时这也是火车采集器的入口网址,将此网址输入在火车采集器的起始网址中
打开网站我们可以看到,这上面都是招聘信息的职位类别,我们要采集到这些类别的链接,我们查看源码,如下图:
第二步:获取类别链接及类别名称
这里我们除了将类别网址链接获取到,同时将类别名称获取到,所以这里使用了列表页标签功能
通过源码找到获取链接的规则如下:
onclick="javascript*)href="[参数]"(*)_blank">[标签:职位分类]</a>
参照上图进行设置,这样类别链接获取就设置好了,然后我们点开任意类别页面,进入招聘信息列表页,如下图:
第三步:内容页网址获取设置
我们要获取列表页上的招聘信息网址,也就是内容页网址,同样我们查询源码,分析规则,如下图:
这里已经是属于第二级网址,我们将网址设置切换为高级模式,然后添加2级列表页,然后设置如下:
<a style="font-weight: bold"(*)href="[参数]",参照下图:
这样内容页的网址链接采集就设置好了,但我们发现列表页下方还有分页,所以我们还要设置分页
第四步:设置分页
获取如下图中的分页
同样是查询源码寻找规则,
然后火车采集器,选择分页设置,设置好分页范围,以及分页链接的规则,上一页(*)class="current"(*)<li><a href="[参数]">,参照下图:
设置好后,我们进行网址测试,如下图:
这样所有网址采集就设置好了
第五步:招聘信息内容采集设置
我们打开任意招聘信息内容页,采集页面上的信息,如下图:
采集器切换到内容采集规则,内容的采集就不一个一个讲,这里没有什么难点,还是查看网页源码,分析规则进行设置即可,大家可自行查看每个字段的规则设置,来学习规则原理,参照下图:
第六步:测试采集
所有的内容字段采集设置好,我们进行测试,可以多测试几个页面,以确保规则能够没问题。
当然我们在设置每个字段的时候也可以进行测试来检验规则。
确保没问题后就可以进行采集了,看这速度,是不是很爽爽!!赶紧去试试吧!
欢迎关注官方微信公众号,及时了解最新信息
【往期福利】
联系我们
客服QQ:800019423
客服电话:400-8757-060
|