【往期福利】
火车采集器
【东哥福利】火车采集器版本选择攻略
【东哥福利-新手必看】最新最全火车采集器V9版学习资料
【东哥福利】火车采集器V9表格类型采集规则分享
【东哥福利】火车采集器V9网易社会新闻采集规则分享
【东哥福利】火车采集器V9规则58同城租房信息采集分享
【东哥福利】火车采集器V9 unicode汉字编码转换案例规则分享
【东哥福利】火车采集器V9澎湃新闻网站信息采集规则分享
火车浏览器
【东哥福利】火车浏览器采集百度搜索相关词及下拉词脚本
【东哥福利】火车浏览器管理dede后台页面自动更新脚本分享
【东哥福利】火车浏览器阿里巴巴商家采集脚本分享
【东哥福利】火车浏览器百度地图商家信息采集详细讲解
-----------------------------------------------------------------------------
东哥微信号tony_lsd,添加请注明:东哥福利
------------------------------------------------------------------------------
【东哥福利】火车采集器V9搜狐社会新闻采集规则分享
今天分享的搜狐社会新闻规则和网易的类似,唯一区别就是文章网址需要拼接,下面简单的说下。要采集的是http://society.sohu.com/ 一样,没有分页,需要抓包找到分页地址,具体方法参照网易社会新闻的采集规则,这里就不再说
通过抓包获得这个网址:http://v2.sohu.com/public-api/fe ... ;page=1&size=20,打开这个网址,参照下图:
起群网址可以这样写:http://v2.sohu.com/public-api/fe ... ceneId=43&page=[地址参数]&size=20
我们随便点开一个文章页,可以看到内容网址是由两组数字组成,如下图:
我们可以在http://v2.sohu.com/public-api/fe ... ;page=1&size=20这个网址中找到这两组数字,然后找到相应的规则,设置内容网址采集规则,这里是要设置两个参数分别获取两组数字,然后网址是需要进行拼接,参照下图:
另外,这里还要特别说明一上,由于网页代码规则的问题,每个分页的第一条内容获取不到,东哥实在是找不到能够匹配所有的规则,但是找到了除第一条其他都能获取到的规则。大家也可以来研究下,如果找到方法,可以在回复帖子告诉大家。
然后就是内容采集了,这个没有什么特别的,就不再细说了,参照下图。
本规则采集搜狐社会新闻信息为例,本规则免费版用户可使用
本规则仅供广大用户学习交流参考,不可用以违法目的或商业用途,我们不对因使用此规则造成的任何法律问题承担责任。
商业版用户有问题或付费定制规则请联系官方客服QQ:800019423 服务热线:400-8757-060
欢迎关注官方微信公众号,及时了解最新信息
联系我们
客服QQ:800019423
客服电话:400-8757-060
|