ch_lina 发表于 2012-12-17 14:01:54

海峡人才网职位采集规则

本帖最后由 ch_lina 于 2012-12-17 14:05 编辑

我是做福建招聘的,分享一个福建人才网www.hxrc.com的采集规则
实话说这个采集规则不完美{:soso_e143:} ,欢迎大家共同谈论
以下是采集的一些简单步骤:

这个网站不可以没有关键字或者条件直接搜索出所有职位,所以我选择分类的方式分别采集
进入 www.hxrc.com.cn/JobListByJobClass.htm 选择 计算机(IT类-开发/应用)附件就是这个分类的规则,其他分类的采集可以复制这一分类,然后把起始地址和多级网页获取稍作修改即可
http://www.fjfcrcw.com/data/images/2012/12/17/20121217115752_57416.jpg
这个网站的分页是post的方式,分页的规则无法从url里显示取得,所有用post的方式
首先在起始网址-单条网址 里填入 计算机(IT类-开发/应用) 的链接地址
http://www.fjfcrcw.com/data/images/2012/12/17/20121217115808_71116.jpg
然后打开多级网址获取-添加 , 选择http请求方式,选择post单选钮,然后我们要获得【发送的数据】里的内容
http://www.fjfcrcw.com//data/images/data/images/2012/12/17/20121217134625_16514.jpg
我用Fiddler2这个工具获得post数据, 下载地址 :http://download.csdn.net/detail/ch_lina/4897076
http://www.fjfcrcw.com/data/images/2012/12/17/20121217115808_71116.jpg
打开Fiddler2
http://www.fjfcrcw.com/data/images/2012/12/17/20121217115847_29352.jpg
接着在刚刚打开的【 计算机(IT类-开发/应用)】的分类里,随便点击一个分页
http://www.fjfcrcw.com/data/images/2012/12/17/20121217115905_74736.jpg
点击完分页后,fiddler里就有相应的数据出现(我这里用ie可以有数据,但是用firefox不可以),点击图示的那条数据,然后右边选择嗅探-textview,其中的内容就是要的数据,可以看到蓝色的地方就是换页的标识
http://www.fjfcrcw.com/data/images/2012/12/17/20121217135623_33315.jpg
把全部这段文字复制到以上第二张图片的位置,然后把蓝色的3【点击的分页数,如果点的是第5页,那就是5】换成【分页】就可以啦

之前说这个采集规则不完美
一是每个分类要分别采集
二是很郁闷的post的分页数据,每天不一样,所有悲剧的要采集的时候要重新用Fiddler2弄一下,不知有没有更好的办法
火车头有个aspxpost获取 ,但是我是免费版不支持,{:soso_e150:}

附上采集规则



页: [1]
查看完整版本: 海峡人才网职位采集规则