fiddler使用实例之----------查找隐藏的真实地址!!!!
fiddler使用实例之----------采集新浪滚动新闻
这个教程讲解下如何用fddler 找到页面的真是地址~~~~~~~~~~~~~次教程属于高级、功能了,所以你要已经知道fiddler的使用
和简单的采集,如果这2点都不会的话,建议不要看下去了,新手还是看看教程。
正如大家所知,采集器是根据页面源代码采集的,但是呢有的时候呀就是那么的烦人呀,在浏览器明明可以看到的,却在页面源代
找不到信息呢,如这个新浪的滚动新闻:http://roll.news.sina.com.cn/s/channel.php?ch=01#col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=1
假如你要采集这个怎么办,打开看下是不是页面源代码里面找不到新闻内容的地址呀,是不是,这样的是什么情况呢,能不能采集
呢???
这样的情况的话,大部分情况我们看到的都不是我们要采集的真是地址,我们要用fiddler去找下,这些新闻地址的页面到底在那个
页面呢。
第一步我们把fiidler软件打开,下图我会把fiddler重要的一个地方用红色标志出来,你们就按照图上的设置下fiddler
没有抓到任何数据的fiddler工具界面如下图
不要问为什么就按照上图设置下采集器吧
第二步,抓包,就是刷新下我们要抓包的页面地址http://roll.news.sina.com.cn/s/channel.php?ch=01#col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=1
第三步,停止抓包,为了防止抓到很多无用的东西我们可以让fiddler 暂停抓包
如下图
点击下上图的位置就可以了,就是在fiddler左下角,点击下那个单词消失了就停止抓包了,再点击空白处就会又出现
就会从新抓包
第四步,查找页面真是地址
现在是我们知道内容地址来查找他在那个页面,
我们在列表页那里顺便访问一个内容地址找到他的地址是什么如下图
这个地址是http://tech.sina.com.cn/t/2013-04-01/16548201408.shtml 这个是吧,我把复制然后到fiddler抓包的结果里面去查找我们一般不要选择域名,因为很多情况下在页面源代码里看到的地址都是相对地址,所以我们选择一些特殊的字符去查找,我们就选择后面的数字吧 “16548201408”
那么下面我们就来说说查找到的这个页面里面是什么内容呢是不是我们要的呢
我们把这个地址复制过来看看:http://roll.news.sina.com.cn/interface/rollnews_ch_out_interface.php?col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=1&r=0.46109949907658204
地址是不是很奇怪,奇怪不奇怪我们不管他放到采集器里面用就好了 大家也看到了这个页面源代码的地址呀不是那种
<a href="" 这样的所以获取的方式呀 要特殊点参考教程http://bbs.locoy.com/spider-108117-1-1.html
好吧 下面把规则上传下大家可以下载参考下
网易博客的地址要如何抓出来啊楼主 受教了,
我是火车菜鸟司机
学习了 我晕。这都被你找到了。。神啊 教程很详细,认真的看过之后就会了。 好强大。看着头大。。。研究中。。。 很好,学习了。谢谢了! 很好地学习了。谢谢 关键是 <a href="javascript:;"charset="423-3-1" onclick="y.episode.show('reload_1')">1-20</a>
这样的怎么知道他的真实地址 这个我看过了:lol:lol:lol:lol:lol
页:
[1]
2