嘟嘟嘟嘟嘟 发表于 2019-12-18 17:02:25

快速采集中文期刊网站丨数据、规则一起送

采集地址:http://lib.cqvip.com/Qikan/Search/Index?from=Qikan_Search_Index​采集字段:标题,摘要、作者、出处、作者简介、邮箱。采集结果:使用“互联网”作为关键词进行搜索,采集搜索结果,并保存到Excel。
1、下载火车采集器输入网址 www.locoy.com 进入火车官网,随后点击下载来获取火车采集器最新版本
2、注册并登录火车采集器在网站进行注册,注册好账号直接登录即可。3、打开爬取网站,确定真实地址首先先点击下一页,发现网址没有改变,说明这个网址需要通过抓包来获取真实地址。打开fiddler,点击下一页进行抓包,使用Ctrl + F 查找有数据的网址,点击进去发现确实是我们需要的真实网址。4、网址是POST类型的,查看POST提交的数据发现是编码过的,可以用工具转码,再点击下一页,进行抓包,对比两次抓包的数据,只有PageNum发生了变化,也就是分页,所以网址采集规则可如下设置。

5、接下来开始采内容,要采集的几个字段内容源码中都存在,直接从源码获取即可,这里标题标签可以先用h1截取,然后用内容替换和HTML标签过滤将不需要的内容去除,其他几个标签设置方法类似。

6、值得一提的是,邮箱是从作者简介里提取的,这里可以使用组合标签来获取作者简介的内容,在数据处理里使用智能提取邮箱功能来自动获取内容里的邮箱信息。
7、最后,保存到本地Excel。



本次每周一数赠送的是中文期刊数据+采集规则,仅限火车软件的商业版本用户。不符合领取条件的可参加正在进行的火车双十二年终回馈活动,活动还剩最后两天。消费达到1500元更是可以领取2019年整年每周一数的所有数据,赶紧参加吧!本周每周一数领取时间:2019年12月18 日发文后5个工作日内(节假日除外)
领取方式:扫码加运营微信,运营会拉您进每周一数群,群内加:【火车数据咨询客服.雅】,经验证为商业用户后,即可领取。长按二维码回复:资源
页: [1]
查看完整版本: 快速采集中文期刊网站丨数据、规则一起送