火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3842|回复: 0

海峡人才网职位采集规则

[复制链接]
发表于 2012-12-17 14:01:54 | 显示全部楼层 |阅读模式
本帖最后由 ch_lina 于 2012-12-17 14:05 编辑

我是做福建招聘的,分享一个福建人才网www.hxrc.com的采集规则
实话说这个采集规则不完美{:soso_e143:} ,欢迎大家共同谈论
以下是采集的一些简单步骤:

这个网站不可以没有关键字或者条件直接搜索出所有职位,所以我选择分类的方式分别采集
进入 www.hxrc.com.cn/JobListByJobClass.htm 选择 计算机(IT类-开发/应用)  附件就是这个分类的规则,其他分类的采集可以复制这一分类,然后把起始地址和多级网页获取稍作修改即可

这个网站的分页是post的方式,分页的规则无法从url里显示取得,所有用post的方式
首先在起始网址-单条网址 里填入 计算机(IT类-开发/应用) 的链接地址

然后打开多级网址获取-添加 , 选择http请求方式,选择post单选钮,然后我们要获得【发送的数据】里的内容

我用Fiddler2这个工具获得post数据, 下载地址 :http://download.csdn.net/detail/ch_lina/4897076

打开Fiddler2

接着在刚刚打开的【 计算机(IT类-开发/应用)】的分类里,随便点击一个分页

点击完分页后,fiddler里就有相应的数据出现(我这里用ie可以有数据,但是用firefox不可以),点击图示的那条数据,然后右边选择嗅探-textview,其中的内容就是要的数据,可以看到蓝色的地方就是换页的标识

把全部这段文字复制到以上第二张图片的位置,然后把蓝色的3【点击的分页数,如果点的是第5页,那就是5】换成【分页】就可以啦

之前说这个采集规则不完美
一是每个分类要分别采集
二是很郁闷的post的分页数据,每天不一样,所有悲剧的要采集的时候要重新用Fiddler2弄一下,不知有没有更好的办法
火车头有个aspxpost获取 ,但是我是免费版不支持,{:soso_e150:}

附上采集规则



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-18 10:55

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表