采集地址: 采集字段: 标题,摘要、作者、出处、作者简介、邮箱。 采集结果: 使用“互联网”作为关键词进行搜索,采集搜索结果,并保存到Excel。
1、下载火车采集器输入网址 www.locoy.com 进入火车官网,随后点击下载来获取火车采集器最新版本
2、注册并登录火车采集器在网站进行注册,注册好账号直接登录即可。3、打开爬取网站,确定真实地址首先先点击下一页,发现网址没有改变,说明这个网址需要通过抓包来获取真实地址。 打开fiddler,点击下一页进行抓包,使用Ctrl + F 查找有数据的网址,点击进去发现确实是我们需要的真实网址。 4、网址是POST类型的,查看POST提交的数据发现是编码过的,可以用工具转码,再点击下一页,进行抓包,对比两次抓包的数据,只有PageNum发生了变化,也就是分页,所以网址采集规则可如下设置。
5、接下来开始采内容,要采集的几个字段内容源码中都存在,直接从源码获取即可,这里标题标签可以先用h1截取,然后用内容替换和HTML标签过滤将不需要的内容去除,其他几个标签设置方法类似。
6、值得一提的是,邮箱是从作者简介里提取的,这里可以使用组合标签来获取作者简介的内容,在数据处理里使用智能提取邮箱功能来自动获取内容里的邮箱信息。
7、最后,保存到本地Excel。
本次每周一数赠送的是中文期刊数据+采集规则,仅限火车软件的商业版本用户。不符合领取条件的可参加正在进行的火车双十二年终回馈活动,活动还剩最后两天。消费达到1500元更是可以领取2019年整年每周一数的所有数据,赶紧参加吧!本周每周一数领取时间:2019年12月18 日发文后5个工作日内(节假日除外)
领取方式:扫码加运营微信,运营会拉您进每周一数群,群内加:【火车数据咨询客服.雅】,经验证为商业用户后,即可领取。长按二维码回复:资源
|