本帖最后由 朝小胖 于 2022-6-17 14:56 编辑
前段时间在搜索微信公众号文章采集的时候看到了火车头官网论坛里面东哥的采集规则。 地址: 【东哥福利】火车采集器V9微信公众号文章采集规则分享http://bbs.locoy.com/forum.php?mod=viewthread&tid=151130&highlight=%E5%BE%AE%E4%BF%A1
下载后发现采集报错了。 通过分析发现是搜狗微信的搜索结果页面里面使用了跳转地址,隐藏了真实的微信文章页面地址。 本规则是在东哥分享的规则基础上就行了修复。在搜索关键词后请求落地页同时抓取隐藏的地址拼凑成真实的微信地址。同时把列表获取规则改成了获取关键词规则了默认获取的是关键词搜索结果的第一页列表。 关键词规则列表只需要把关键词的url转码(一行一个)后放入自定义列表即可实现根据关键词采集数据。 第一步:通过关键词获取列表页的文章url地址 通过关键词获取文章url第二步获取真实微信页地址。 第三步利用组合标签去请求【真实地址】标签获取相关内容 怎么获取标题、获取内容、公众号、微信号。直接前后截取规则就行了,很简单不细说了。
|