【荣耀博客】火车头采集器V9百家号网站内容采集规则教程

ws258369 发表于 2017-6-21 15:54:51

采集目标：https://baijia.baidu.com/
适合版本：V9免费版，V9收费版
难易程度：简单

本教程难度较低，各位牛人看勿喷

以科技栏目为例：https://baijia.baidu.com/channel?cat=1
首先利用Fiddler 4抓包工具获取分页链接如图

https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=0
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=15
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=30
https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=45
....
翻页就是这样的

起始网址：https://baijia.baidu.com/listarticle?ajax=json&cat=1&_limit=15&_skip=[地址参数]

我这里为了演示就采集5页

打开这个翻页页地址，查找内容地址，搜索 s?id 因为每个文章de网址都包含了一个s?id

提取规则："url":"http:\/\/baijiahao.baidu.com\/[参数]",
拼接地址：https://baijia.baidu.com/[参数1]&wfr=pc&fr=ch_lst

测试规则

下面开始写内容标签采集规则
实例

提取方式：正规则
标题：<h1 class="title">[参数]</h1>
作者：<span class="author"><a href="(*)" target="_blank">[参数]</a></span>
时间：<span class="time">[参数]</span>
摘要：<div class="abstract">[参数]</div>
数据处理：html标签排除：空格、去除收尾空白字符、所有标签<
内容：<section class="news-content">[参数]<div class="rights">
数据处理：html标签排除：去除收尾空白字符

规则我就不分享了按照教程来自己就多学点

crewkicks 发表于 2017-7-26 17:02:21

:(:(:(:(:(:(:(:(:(:(

uusstt2 发表于 2017-8-15 16:52:38

支持原创，顶顶顶

sky3918 发表于 2017-12-4 12:41:12

不错。试试看看

页: [1]

火车采集器软件交流官方论坛's Archiver

【荣耀博客】火车头采集器V9百家号网站内容采集规则教程