【荣耀博客】火车头采集器V9百家号网站内容采集规则教程
采集目标:https://baijia.baidu.com/适合版本:V9免费版,V9收费版
难易程度:简单
本教程难度较低,各位牛人看勿喷
以科技栏目为例:https://baijia.baidu.com/channel?cat=1
首先利用Fiddler 4抓包工具获取分页链接如图
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=0
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=15
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=30
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=45
....
翻页就是这样的
起始网址:https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=[地址参数]
我这里为了演示就采集5页
打开这个翻页页地址,查找内容地址,搜索 s?id 因为每个文章de网址都包含了一个s?id
提取规则:"url":"http:\/\/baijiahao.baidu.com\/[参数]",
拼接地址:https://baijia.baidu.com/[参数1]&wfr=pc&fr=ch_lst
测试规则
下面开始写内容标签采集规则
实例
提取方式:正规则
标题:<h1 class="title">[参数]</h1>
作者:<span class="author"><a href="(*)" target="_blank">[参数]</a></span>
时间:<span class="time">[参数]</span>
摘要:<div class="abstract">[参数]</div>
数据处理:html标签排除:空格、去除收尾空白字符、所有标签<
内容:<section class="news-content">[参数]<div class="rights">
数据处理:html标签排除:去除收尾空白字符
规则我就不分享了 按照教程来自己就多学点
:(:(:(:(:(:(:(:(:(:( 支持原创,顶顶顶 不错。试试看看
页:
[1]