火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3475|回复: 2

【采集规则分享】微信搜狗搜索关键词采集微信文章规则

[复制链接]
发表于 2022-6-6 11:57:21 | 显示全部楼层 |阅读模式
本帖最后由 朝小胖 于 2022-6-17 14:56 编辑

前段时间在搜索微信公众号文章采集的时候看到了火车头官网论坛里面东哥的采集规则。
地址:
【东哥福利】火车采集器V9微信公众号文章采集规则分享http://bbs.locoy.com/forum.php?mod=viewthread&tid=151130&highlight=%E5%BE%AE%E4%BF%A1
下载后发现采集报错了。
通过分析发现是搜狗微信的搜索结果页面里面使用了跳转地址,隐藏了真实的微信文章页面地址。
本规则是在东哥分享的规则基础上就行了修复。在搜索关键词后请求落地页同时抓取隐藏的地址拼凑成真实的微信地址。同时把列表获取规则改成了获取关键词规则了默认获取的是关键词搜索结果的第一页列表。
关键词规则列表
只需要把关键词的url转码(一行一个)后放入自定义列表即可实现根据关键词采集数据。
第一步:通过关键词获取列表页的文章url地址
通过关键词获取文章url
第二步获取真实微信页地址。
第三步利用组合标签去请求【真实地址】标签获取相关内容
怎么获取标题、获取内容、公众号、微信号。直接前后截取规则就行了,很简单不细说了。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2022-9-28 11:01:42 | 显示全部楼层
感谢分享 现在还有用吗
 楼主| 发表于 2022-6-15 10:43:16 | 显示全部楼层
ps:收到知友的私信,知道了真实地址后怎么获取标题和内容。其实我在文章中说明了可以利用组合标签。
这里贴图演示一下吧。
在标题标签这选择已有标签组合、然后在标签组合数据中引用【真实地址】标签
在数据处理中选用http请求用来获取真实地址源码。
然后用内容截取处理。使用前后截取的规则即可。
后面加上字符编码/解码 功能 解码一下特殊符号 比如标题里面《》:“”等等
至于内容、时间、来源、公众号、微信号、内容等标签都是同样的原理。

您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-22 22:31

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表