【采集规则分享】微信搜狗搜索关键词采集微信文章规则
本帖最后由 朝小胖 于 2022-6-17 14:56 编辑前段时间在搜索微信公众号文章采集的时候看到了火车头官网论坛里面东哥的采集规则。地址:【东哥福利】火车采集器V9微信公众号文章采集规则分享http://bbs.locoy.com/forum.php?mod=viewthread&tid=151130&highlight=%E5%BE%AE%E4%BF%A1
下载后发现采集报错了。通过分析发现是搜狗微信的搜索结果页面里面使用了跳转地址,隐藏了真实的微信文章页面地址。本规则是在东哥分享的规则基础上就行了修复。在搜索关键词后请求落地页同时抓取隐藏的地址拼凑成真实的微信地址。同时把列表获取规则改成了获取关键词规则了默认获取的是关键词搜索结果的第一页列表。https://pic1.zhimg.com/80/v2-394f7c173d7ebcad76285926cfebab68_720w.jpg关键词规则列表只需要把关键词的url转码(一行一个)后放入自定义列表即可实现根据关键词采集数据。第一步:通过关键词获取列表页的文章url地址https://pic4.zhimg.com/80/v2-563180f3bb7715da437aaeaeb7547ba3_720w.jpg通过关键词获取文章urlhttps://pic4.zhimg.com/80/v2-7ecbf92572b98c5a919fb5f3b4e12d7b_720w.jpg第二步获取真实微信页地址。https://pic4.zhimg.com/80/v2-0ea54fe87571dc517590f5b394f30463_720w.jpg第三步利用组合标签去请求【真实地址】标签获取相关内容https://pic2.zhimg.com/80/v2-e801377637c0cae77ac2cdebc2bce681_720w.jpg怎么获取标题、获取内容、公众号、微信号。直接前后截取规则就行了,很简单不细说了。
感谢分享 现在还有用吗 ps:收到知友的私信,知道了真实地址后怎么获取标题和内容。其实我在文章中说明了可以利用组合标签。这里贴图演示一下吧。https://pic2.zhimg.com/80/v2-238f6808722346da7bcc38da43581c55_720w.jpg在标题标签这选择已有标签组合、然后在标签组合数据中引用【真实地址】标签在数据处理中选用http请求用来获取真实地址源码。然后用内容截取处理。使用前后截取的规则即可。后面加上字符编码/解码 功能 解码一下特殊符号 比如标题里面《》:“”等等至于内容、时间、来源、公众号、微信号、内容等标签都是同样的原理。
页:
[1]