采集电子各类报纸在线新闻
本帖最后由 wenchunhai 于 2012-9-28 16:07 编辑由于网站原因需要采集本地晚报和日报作为新闻素材之一,但由于这些报纸的地址都是以http://szb.***.com:81/gzwb/html/2012-09/13/node_12.htm的形式,用织梦自身带的采集模块甚至采集侠都无法实现多级网址的采集,于是火车头用上了,方法如下:
1、 添加起始网址,由于每天的报刊首页都是node_12.htm
地址样式:http://szb.gndaily.com:81/gzwb/html/(*)/node_12.htm
时间样式:yyyy-MM/dd
添加后会自动以当天的日期时间生成起始网址,如下图1:
如下:http://szb.***.com:81/gzwb/html/2012-09/13/node_12.htm
2、 多级网址采集获取
分析页面可以发现其地址都是<a id=pageLink href=node_16.htm>第A05版:民生</a>这样的格式,我们可以选择手动填写链接规则,脚本规则里面:<a id=pageLink href=[参数]>,实际连接 是指参数生成后 最终的链接地址,分析得出最终的链接地址都是诸如:node_16.htm,没有带上链接URL地址,我们不管,直接在实际连接里面填写 [参数1],如下图2:
其他内容、标题采集再次就不详细讲解了。
本文源自:CMS知道网 http://www.cmszd.com/802.html 自己顶一下!希望可以帮到那些需要采集电子报纸内容的朋友!{:soso__8961432591078930798_3:} 自己也是火车头新手,希望可以和大家多多交流!我的QQ:444395318 顶Ixia!嗬嗬嗬我希望可以帮到大家哈!下次分享深入的使用心得~! 嘿嘿 今天才发现原来在这个 板块多看帖子也能解决很多问题的哦 真的很需要,感谢你了。
页:
[1]