|
【东哥福利】火车采集器V9澎湃新闻网站信息采集规则分享
东哥微信号tony_lsd,添加请注明:东哥福利
今天给大家分享澎湃新闻网站的时事新闻采集规则,澎湃新闻网站常做新闻采集编辑的朋友应该知道,很多新闻来源都是这个站,我们有很多朋友需要每天采集新闻,这个站的新闻更新速度,比较适合新闻更新源。今天仅以时事新闻为例,大家可以自行尝试其他类别。本规则没有什么特别的讲解点,就在这里简单说一下。
首先们进入网站http://www.thepaper.cn/channel_25950 时事频道,大家可以看到澎湃新闻采集的是瀑布流形式,这就需要通过抓包软件fiddler进行抓,大家打开Fiddler软件,然后澎湃网页往下拉页面刷新出新的新闻即可。然后通过抓包软件找到新闻列表地址。通过软件找到了这样的地址http://www.thepaper.cn/load_index.jsp?nodeids=25462,25488,25489,25490,25423,25426,25424,25463,25491,25428,25464,25425,25429,25481,25430,25678,25427,25422,25487,25634,25635,25600,&topCids=1720823,1720614,1720763&pageidx=3&lastTime=1498717635018
通过分析,而且此地址依然不能作为列表页网址,将网址简化为http://www.thepaper.cn/load_index.jsp?topCids=1720823,1720614,1720763&pageidx=1 发现也可以访问,那就简单了 通过起始网址批量网址设置,设置成这样即可。http://www.thepaper.cn/load_index.jsp?topCids=1720823,1720614,1720763&pageidx=[地址参数]
如图:
大家可以自行,设置页码数。 其他的就没有什么难度这里就不再细讲了。
本规则为火车采集器V9版规则,其他低版本不可使用。
免费版用户可使用。
本规则仅供广大用户学习交流参考,不可用以违法目的或商业用途,我们不对因使用此规则造成的任何法律问题承担责任。
商业版用户有问题或付费定制规则请联系官方客服QQ:800019423 服务热线:400-8757-060
【回复本贴可见下载链接】
欢迎关注官方微信公众号,及时了解最新信息
【往期福利】
联系我们
客服QQ:800019423
客服电话:400-8757-060
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?加入会员
x
|