这个网址能采吗?源码看不到文章列表。
http://roll.news.sina.com.cn/s/channel.php?ch=12#col=134&spec=&type=&ch=12&k=&offset_page=0&offset_num=0&num=60&asc=&page=1 能采的。有什么要求呢 本帖最后由 dony 于 2011-7-26 16:12 编辑我刚用采集不懂啊。不知道用什么方法采这种网页,总是数据0.
请问我怎么能请求到文章列表。 高手帮看看吧。给2句话思路。新浪好像就这1个频道这么写的。 回复 1# dony
可以采集到,使用fidder抓包工具抓取下就明白了。列表页地址都在var jsonData = { serverSeconds : 1311674549, last_time : 1311268824, path : [{title : "台式机", id : "134", cType : "col"}], count : 285, offset_page : 0, offset_num : 0, list : [ {channel : {title : "台式机",id : "134",cType : "col",url : "http://tech.sina.com.cn/pc/"},title : "强劲配置 宏碁Aspire M3920售6173元",url : "http://tech.sina.com.cn/pc/2011-07-22/01201828087.shtml",pic : '',time : 1311268824}, {channel : {title : "台式机",id : "134",cType : "col",url : "http://tech.sina.com.cn/pc/"},title : "时尚急速 联想B320畅速型售价4999元",url : "http://tech.sina.com.cn/pc/2011-07-22/01201828083.shtml",pic : '',time : 1311268823}, {channel : {title : "台式机",id : "134",cType : "col",url : "http://tech.sina.com.cn/pc/"},title : "时尚大气娱乐机 联想B520飚速型售6999",url : "http://tech.sina.com.cn/pc/2011-07-22/01201828099.shtml",pic : '',time : 1311268822}, {channel : {title : "台式机",id : "134",cType : "col",url : "http://tech.sina.com.cn/pc/"},title : "商务品
这里
GET http://roll.news.sina.com.cn/interface/rollnews_ch_out_interface.php?col=134&spec=&type=&ch=12&k=&offset_page=0&offset_num=0&num=60&asc=&page=2&r=0.21327521756443835 HTTP/1.1
Accept: */*
Referer: http://roll.news.sina.com.cn/s/channel.php?ch=12
使用这个地址匹配采集http://roll.news.sina.com.cn/interface/rollnews_ch_out_interface.php?col=134&spec=&type=&ch=12&k=&offset_page=0&offset_num=0&num=60&asc=&page=2&r=0.21327521756443835 老大,太感谢了,你说的我已经弄出来了。
现在使用这个地址采集,但是我不知道怎么识别连接。。。。。。。
就是怎么匹配,再多说1句,就彻底明白了。。
页:
[1]