火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 8596|回复: 0

每周一数丨生病如何快速确定病因并及时治疗?小采送你...

[复制链接]
发表于 2019-11-21 16:55:46 | 显示全部楼层 |阅读模式
这几天的突然降温,小采在合肥冷的瑟瑟发抖,好像今年的最后一个季节冬天真的要来了。气温骤降,早晚温暖差,火车用户们要注意保暖,不能生病呀。


要是不注意生病了,那么如何快速确定病因并及时预约治疗呢?本周小采就送火车用户们一份健康数据,数据内容包括疾病名称、挂号诊室、相关症状、医院名称、预约电话、联系网址。所谓居安思危,思则有备,有备无患,用户们可以将数据保存下来,防患于未然,还可以学习本次教程来爬取自己需要的公开数据,学着自己能熟练使用火车采集器,自己动手丰衣足食,这也是小采每周坚持写教程的原因。好了,闲话不说,来进入今天的教程。

采集网址:
https://www.youlai.cn/dise/

采集目标:
1. 获取”内科”下全部的”疾病”内容页地址

2. 内容页采集字段:疾病名称,挂号科室,相关症状,相关医院的名称及联系方式

使用工具:1. 火车采集器2. Fidder抓包软件采集成果:




第一步:打开火车官网 www.locoy.com 下载最新版火车采集器并安装
第二步: 打开列表页面,Ctrl+U查看当前页面源码进行分析,找到疾病所在位置

第三步:在采集器中新建规则,按照页面源码分析得到的源码位置进行设置
列表地址填写到起始地址栏中
设置”疾病”内容所在源码中的区域范围
设置手动规则获取
正常获取后内容页地址后,处理采集的标签字段

第四步:与列表页一样,分析内容页上需要采集的字段在源码中的位置,可以看出相关医院的数据是跳转地址现实的

第五步: 按照上图显示的对应关系,设置好疾病名称,挂号诊室,相关症状的标签获取方式

第六步: 本次采集的难点是相关医院关联多页设置
①打开”相关医院”可以看到是一个有上下页的列表,每一行数据中都有需要采集的”医院名称”和”联系电话”
②从内容页源码分析可以知道”相关医院”页面的实际地址,新增多页,设置为源码中截取,获取多页地址
③多页中有上下页分页,Ctrl+U分析”相关医院”页面的分页方式,点击更多设置
多页地址的获取分页设置好以后,命名保存

第七步:“相关医院”标签的数据来源选择关联多页中的“相关医院”多页的源码中。根据“相关医院”的源码分析,可以得到“医院名称”和“联系方式”的源码位置,并设置为循环匹配。
第八步:循环设置修改为“添加新纪录”



总结:
1. 通过查看源码,对比页面数据存在于源码中的什么位置,来设置获取方式,
2. 关联多页的设置要注意实际地址的获取方式,

每周一数数据以及采集规则领取时间为2019/11/21日发文后5个工作日内。采集规则涉及到商业版本功能,建议用户登录商业版本使用此规则。

数据领取资格:火车采集器/火车浏览器/触控精灵商业版软件用户(服务年限内),如果您不是商业用户或者已经过了服务年限,但也想参与活动的话,可以新购软件或者升级续费,这样就能参与活动啦!

数据领取方式:
第一步:扫码添加火车运营微信号,火车运营助手会拉你进入活动群。



微信号:chetouge

第二步:进群后添加数据咨询客服.雅的微信号,经客服验证为服务年限内商业用户身份后,即可领取。

好啦,本期的“每周一数”就到这里了。如果您还有想要获取更多的数据资源以及采集器规则的话,可以在文章下方或是公众号后台留言,小采会综合大家的意见选择下一期赠送数据的主题哦!



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-22 13:59

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表