ws258369 发表于 2017-6-21 15:54:51

【荣耀博客】火车头采集器V9百家号网站内容采集规则教程

采集目标:https://baijia.baidu.com/
适合版本:V9免费版,V9收费版
难易程度:简单

本教程难度较低,各位牛人看勿喷

以科技栏目为例:https://baijia.baidu.com/channel?cat=1
首先利用Fiddler 4抓包工具获取分页链接如图

https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=0
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=15
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=30
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=45
....
翻页就是这样的

起始网址:https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=[地址参数]

我这里为了演示就采集5页

打开这个翻页页地址,查找内容地址,搜索 s?id 因为每个文章de网址都包含了一个s?id


提取规则:"url":"http:\/\/baijiahao.baidu.com\/[参数]",
拼接地址:https://baijia.baidu.com/[参数1]&wfr=pc&fr=ch_lst


测试规则


下面开始写内容标签采集规则
实例

提取方式:正规则
标题:<h1 class="title">[参数]</h1>
作者:<span class="author"><a href="(*)" target="_blank">[参数]</a></span>
时间:<span class="time">[参数]</span>
摘要:<div class="abstract">[参数]</div>
数据处理:html标签排除:空格、去除收尾空白字符、所有标签<
内容:<section class="news-content">[参数]<div class="rights">
数据处理:html标签排除:去除收尾空白字符


规则我就不分享了 按照教程来自己就多学点


crewkicks 发表于 2017-7-26 17:02:21

:(:(:(:(:(:(:(:(:(:(

uusstt2 发表于 2017-8-15 16:52:38

支持原创,顶顶顶

sky3918 发表于 2017-12-4 12:41:12

不错。试试看看
页: [1]
查看完整版本: 【荣耀博客】火车头采集器V9百家号网站内容采集规则教程