火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 6388|回复: 3

【荣耀博客】火车头采集器V9百家号网站内容采集规则教程

[复制链接]
发表于 2017-6-21 15:54:51 | 显示全部楼层 |阅读模式
采集目标:https://baijia.baidu.com/
适合版本:V9免费版,V9收费版
难易程度:简单

本教程难度较低,各位牛人看勿喷

以科技栏目为例:https://baijia.baidu.com/channel?cat=1
首先利用Fiddler 4抓包工具获取分页链接如图

https://baijia.baidu.com/listart ... imit=15&_skip=0
https://baijia.baidu.com/listart ... mit=15&_skip=15
https://baijia.baidu.com/listart ... mit=15&_skip=30
https://baijia.baidu.com/listart ... mit=15&_skip=45
....
翻页就是这样的

起始网址:https://baijia.baidu.com/listart ... limit=15&_skip=[地址参数]

我这里为了演示就采集5页

打开这个翻页页地址,查找内容地址,搜索 s?id 因为每个文章de网址都包含了一个s?id


提取规则:"url":"http:\/\/baijiahao.baidu.com\/[参数]",
拼接地址:https://baijia.baidu.com/[参数1]&wfr=pc&fr=ch_lst


测试规则


下面开始写内容标签采集规则
实例

提取方式:正规则
标题:<h1 class="title">[参数]</h1>
作者:<span class="author"><a href="(*)" target="_blank">[参数]</a></span>
时间:<span class="time">[参数]</span>
摘要:<div class="abstract">[参数]</div>
数据处理:html标签排除:空格、去除收尾空白字符、所有标签<
内容:<section class="news-content">[参数]<div class="rights">
数据处理:html标签排除:去除收尾空白字符


规则我就不分享了 按照教程来自己就多学点


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2017-8-15 16:52:38 | 显示全部楼层
支持原创,顶顶顶
发表于 2017-12-4 12:41:12 | 显示全部楼层
不错。试试看看
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-18 00:36

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表