火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 71029|回复: 142

【东哥福利】火车采集器V9澎湃新闻网站信息采集规则分享

[复制链接]
发表于 2017-6-29 18:26:08 | 显示全部楼层 |阅读模式
【东哥福利】火车采集器V9澎湃新闻网站信息采集规则分享

东哥微信号tony_lsd,添加请注明:东哥福利

今天给大家分享澎湃新闻网站的时事新闻采集规则,澎湃新闻网站常做新闻采集编辑的朋友应该知道,很多新闻来源都是这个站,我们有很多朋友需要每天采集新闻,这个站的新闻更新速度,比较适合新闻更新源。今天仅以时事新闻为例,大家可以自行尝试其他类别。本规则没有什么特别的讲解点,就在这里简单说一下。

首先们进入网站http://www.thepaper.cn/channel_25950 时事频道,大家可以看到澎湃新闻采集的是瀑布流形式,这就需要通过抓包软件fiddler进行抓,大家打开Fiddler软件,然后澎湃网页往下拉页面刷新出新的新闻即可。然后通过抓包软件找到新闻列表地址。通过软件找到了这样的地址http://www.thepaper.cn/load_index.jsp?nodeids=25462,25488,25489,25490,25423,25426,25424,25463,25491,25428,25464,25425,25429,25481,25430,25678,25427,25422,25487,25634,25635,25600,&topCids=1720823,1720614,1720763&pageidx=3&lastTime=1498717635018
通过分析,而且此地址依然不能作为列表页网址,将网址简化为http://www.thepaper.cn/load_index.jsp?topCids=1720823,1720614,1720763&pageidx=1 发现也可以访问,那就简单了 通过起始网址批量网址设置,设置成这样即可。http://www.thepaper.cn/load_index.jsp?topCids=1720823,1720614,1720763&pageidx=[地址参数]
如图:

大家可以自行,设置页码数。 其他的就没有什么难度这里就不再细讲了。


本规则为火车采集器V9版规则,其他低版本不可使用。

免费版用户可使用。

本规则仅供广大用户学习交流参考,不可用以违法目的或商业用途,我们不对因使用此规则造成的任何法律问题承担责任。

商业版用户有问题或付费定制规则请联系官方客服QQ:800019423 服务热线:400-8757-060

【回复本贴可见下载链接】
游客,如果您要查看本帖隐藏内容请回复



欢迎关注官方微信公众号,及时了解最新信息


【往期福利】


联系我们
客服QQ:800019423
客服电话:400-8757-060


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2017-6-29 18:42:48 | 显示全部楼层
11111111111111111111111111111111
发表于 2017-6-30 14:26:41 | 显示全部楼层
感谢分享,看看
发表于 2017-6-30 17:21:51 | 显示全部楼层
东哥牛逼,感谢分享
发表于 2017-6-30 22:40:04 | 显示全部楼层

感谢分享,看看
发表于 2017-7-1 04:58:41 | 显示全部楼层
多谢分享!感谢
发表于 2017-7-3 08:42:38 | 显示全部楼层
111111111111111111111111111111111111
发表于 2017-7-4 12:19:54 | 显示全部楼层
感谢分享,看看
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-18 00:19

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表