火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3597|回复: 5

采集电子各类报纸在线新闻

[复制链接]
发表于 2012-9-15 22:41:23 | 显示全部楼层 |阅读模式
本帖最后由 wenchunhai 于 2012-9-28 16:07 编辑

    由于网站原因需要采集本地晚报和日报作为新闻素材之一,但由于这些报纸的地址都是以http://szb.***.com:81/gzwb/html/2012-09/13/node_12.htm的形式,用织梦自身带的采集模块甚至采集侠都无法实现多级网址的采集,于是火车头用上了,方法如下:
1、        添加起始网址,由于每天的报刊首页都是node_12.htm
地址样式:http://szb.gndaily.com:81/gzwb/html/(*)/node_12.htm
时间样式:yyyy-MM/dd
添加后会自动以当天的日期时间生成起始网址,如下图1:


如下:http://szb.***.com:81/gzwb/html/2012-09/13/node_12.htm
2、        多级网址采集获取
分析页面可以发现其地址都是<a id=pageLink href=node_16.htm>第A05版:民生</a>这样的格式,我们可以选择手动填写链接规则,脚本规则里面:<a id=pageLink href=[参数]>,实际连接 是指参数生成后 最终的链接地址,分析得出最终的链接地址都是诸如:node_16.htm,没有带上链接URL地址,我们不管,直接在实际连接里面填写 [参数1],如下图2:

其他内容、标题采集再次就不详细讲解了。

本文源自:CMS知道网 http://www.cmszd.com/802.html

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2012-9-15 22:42:36 | 显示全部楼层
自己顶一下!希望可以帮到那些需要采集电子报纸内容的朋友!{:soso__8961432591078930798_3:}
 楼主| 发表于 2012-9-15 22:46:23 | 显示全部楼层
自己也是火车头新手,希望可以和大家多多交流!我的QQ:444395318
 楼主| 发表于 2012-9-17 12:04:08 | 显示全部楼层
顶Ixia!嗬嗬嗬我希望可以帮到大家哈!下次分享深入的使用心得~!
发表于 2012-9-17 18:47:26 | 显示全部楼层
嘿嘿 今天才发现原来在这个 板块多看帖子也能解决很多问题的哦
发表于 2012-9-19 20:28:32 | 显示全部楼层
真的很需要,感谢你了。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-8-26 15:02

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表