火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 6926|回复: 7

【东哥福利】火车采集器V9搜狐社会新闻采集规则分享

[复制链接]
发表于 2017-8-24 15:50:06 | 显示全部楼层

【东哥福利】火车采集器V9搜狐社会新闻采集规则分享

【往期福利】

火车采集器

【东哥福利】火车采集器版本选择攻略
【东哥福利-新手必看】最新最全火车采集器V9版学习资料

【东哥福利】火车采集器V9表格类型采集规则分享
【东哥福利】火车采集器V9网易社会新闻采集规则分享
【东哥福利】火车采集器V9规则58同城租房信息采集分享
【东哥福利】火车采集器V9 unicode汉字编码转换案例规则分享
【东哥福利】火车采集器V9澎湃新闻网站信息采集规则分享
火车浏览器
【东哥福利】火车浏览器采集百度搜索相关词及下拉词脚本
【东哥福利】火车浏览器管理dede后台页面自动更新脚本分享
【东哥福利】火车浏览器阿里巴巴商家采集脚本分享
【东哥福利】火车浏览器百度地图商家信息采集详细讲解
-----------------------------------------------------------------------------
东哥微信号tony_lsd,添加请注明:东哥福利
------------------------------------------------------------------------------

【东哥福利】火车采集器V9搜狐社会新闻采集规则分享

今天分享的搜狐社会新闻规则和网易的类似,唯一区别就是文章网址需要拼接,下面简单的说下。要采集的是http://society.sohu.com/ 一样,没有分页,需要抓包找到分页地址,具体方法参照网易社会新闻的采集规则,这里就不再说
通过抓包获得这个网址:http://v2.sohu.com/public-api/fe ... ;page=1&size=20,打开这个网址,参照下图:

起群网址可以这样写:http://v2.sohu.com/public-api/fe ... ceneId=43&page=[地址参数]&size=20
我们随便点开一个文章页,可以看到内容网址是由两组数字组成,如下图:

我们可以在http://v2.sohu.com/public-api/fe ... ;page=1&size=20这个网址中找到这两组数字,然后找到相应的规则,设置内容网址采集规则,这里是要设置两个参数分别获取两组数字,然后网址是需要进行拼接,参照下图:



另外,这里还要特别说明一上,由于网页代码规则的问题,每个分页的第一条内容获取不到,东哥实在是找不到能够匹配所有的规则,但是找到了除第一条其他都能获取到的规则。大家也可以来研究下,如果找到方法,可以在回复帖子告诉大家。

然后就是内容采集了,这个没有什么特别的,就不再细说了,参照下图。



本规则采集搜狐社会新闻信息为例,本规则免费版用户可使用

本规则仅供广大用户学习交流参考,不可用以违法目的或商业用途,我们不对因使用此规则造成的任何法律问题承担责任。


商业版用户有问题或付费定制规则请联系官方客服QQ:800019423 服务热线:400-8757-060


欢迎关注官方微信公众号,及时了解最新信息


联系我们
客服QQ:800019423
客服电话:400-8757-060





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2017-8-24 18:03:26 | 显示全部楼层
谢谢分享,来学习一下。
发表于 2017-8-30 15:32:15 | 显示全部楼层
wo kan 看 wo kan 看 wo kan 看 wo kan 看
发表于 2017-8-31 17:19:32 | 显示全部楼层
东哥太牛了!
发表于 2017-9-3 12:59:58 | 显示全部楼层
给力了,东哥,看看学习一下
发表于 2017-9-9 13:36:04 | 显示全部楼层
给力了,东哥
发表于 2017-10-16 09:56:12 | 显示全部楼层
我要努力的学习  哈哈
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-18 00:39

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表