火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7515|回复: 0

快速采集中文期刊网站丨数据、规则一起送

[复制链接]
发表于 2019-12-18 17:02:25 | 显示全部楼层 |阅读模式
采集地址:
采集字段:
标题,摘要、作者、出处、作者简介、邮箱。
采集结果:
使用“互联网”作为关键词进行搜索,采集搜索结果,并保存到Excel。

1、下载火车采集器输入网址 www.locoy.com 进入火车官网,随后点击下载来获取火车采集器最新版本
2、注册并登录火车采集器在网站进行注册,注册好账号直接登录即可。3、打开爬取网站,确定真实地址
首先先点击下一页,发现网址没有改变,说明这个网址需要通过抓包来获取真实地址。
打开fiddler,点击下一页进行抓包,使用Ctrl + F 查找有数据的网址,点击进去发现确实是我们需要的真实网址。
4网址是POST类型的,查看POST提交的数据发现是编码过的,可以用工具转码,再点击下一页,进行抓包,对比两次抓包的数据,只有PageNum发生了变化,也就是分页,所以网址采集规则可如下设置。


5、接下来开始采内容,要采集的几个字段内容源码中都存在,直接从源码获取即可,这里标题标签可以先用h1截取,然后用内容替换和HTML标签过滤将不需要的内容去除,其他几个标签设置方法类似。


6、值得一提的是,邮箱是从作者简介里提取的,这里可以使用组合标签来获取作者简介的内容,在数据处理里使用智能提取邮箱功能来自动获取内容里的邮箱信息。

7、最后,保存到本地Excel。




本次每周一数赠送的是中文期刊数据+采集规则,仅限火车软件的商业版本用户。不符合领取条件的可参加正在进行的火车双十二年终回馈活动,活动还剩最后两天。消费达到1500元更是可以领取2019年整年每周一数的所有数据,赶紧参加吧!
本周每周一数领取时间:2019年12月18 日发文后5个工作日内(节假日除外)
领取方式:扫码加运营微信,运营会拉您进每周一数群,群内加:【火车数据咨询客服.雅】,经验证为商业用户后,即可领取。
长按二维码回复:资源

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-22 14:43

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表