leejunji 发表于 2013-3-26 15:57:09

fiddler 获取到多页的地址,方法讲解

各位有没有遇到页面里能看到内容 ,但是写采集规则的时候为啥在页面源代码里面,找不到呢 咋回事呀 这是。

比如这个页面:http://www.nxrc.com.cn/company/company.php?comid=91241

你看看页面右下侧的联系方式能不能看到,是吧在页面是能看到的 ,咋到了页面源代码找不到了呢,好奇怪吧。


那么遇到这样的情况该怎么办???

这个种情况就说明呀这个联系方式的内容是在另外一个页面地址上,并不是在这个页面地址http://www.nxrc.com.cn/company/company.php?comid=91241

这就是因为我们为啥在页面上看为什么不能在页面源代码上面看到的原因,因为这个部分内容其实在 另外的页面上面。那么我们

就要找到他到底在那个页面上了。

这里说下什么是多页????



图上面的红框标识的典型页面也叫默认页面是我们要采集的页面地址是吧,但是有些数据不在这个这个页面上面,虽然不在这个页

面上,但是所在的地址和这个默认页面地址有关系,有的是地址在默认页面上,有的是地址和默认页面地址有一定的关心比如多

了几个单词之类的。我们通过地址之间的关系找到这个地址,那么这个地址相对于默认页就叫做多页

那么多页的定义大家是否能明白呢。上面那个情况就是要使用多页,那么下面我们用fiddler 找下这个联系方式所在的页面地址是

什么,然后我们比较下和这个默认页http://www.nxrc.com.cn/company/company.php?comid=91241

之间有什么关系。

首先打开fiddler,用fiddler抓包这里默认你已经会了如果不会请看下这个教程吧 http://bbs.locoy.com/spider-107387-1-1.html


然后我们刷新下http://www.nxrc.com.cn/company/company.php?comid=91241

这个页面,抓包。

然后看下那个联系内容有个电话号码是:0951-3918004,我们要找找这个数字在那里我们随便选些数字去fiddler抓包的结果里找下这里我们用“8004”去查找,这里说明下,很重要的一点:我们这里选取查找的字符一般是数字英文字母最佳,汉字当然也可以,但是有的时候呀,汉字可能被转义了我们是查找不到的,这里是经验之谈。






重点如何查找,现在说明下。看下图上面的标识


点击查找如图:


然后我们查找下看下结果是什么。

上图

上面说了 结果会用黄色标识的,看我们查找到了,好多内容 换2楼继续写

leejunji 发表于 2013-3-26 16:22:52

接1楼


对1楼返回的结果说明下如下图:


也就是说我们找到了联系方式的地址是在这个页面http://www.nxrc.com.cn/inc/contacts.php?companyid=91241&issee=0&t=1364285298093 大家可以把这个地方放到浏览器里访问看看

你要是留心会发现那个t=1364285298093 你抓到的这个数字和我不一样的不过没有关心你不要这个也是可以访问的

就是访问这个地址http://www.nxrc.com.cn/inc/contacts.php?companyid=91241 结果也是一样的 是吧 也就是说那个t我们可以不要

现在找到了地址 怎么用在采集器里面呢,哦,我们比较下这个2个地址之间的关系

http://www.nxrc.com.cn/company/company.php?comid=91241

http://www.nxrc.com.cn/inc/contacts.php?companyid=91241

发现了吧 有个共同点就是有个共同的数字是吧,这里你记住了,我们现在写如何根据这个地址http://www.nxrc.com.cn/company/company.php?comid=91241
获取这个地址http://www.nxrc.com.cn/inc/contacts.php?companyid=91241

leejunji 发表于 2013-3-26 16:27:48

接2楼


第一步打开多页管理





2楼已经说了2个地址的之间的规律

就是把http://www.nxrc.com.cn/company/company.php?comid=91241 这个地址的91241 得到 然后组合成http://www.nxrc.com.cn/inc/contacts.php?companyid=91241 这样的地址样式

第一步获取到这个91241 数字,这个是以这个网址为例的,不同公司地址这个数字是不一样的大家不要傻掉了哈

采集器如何获取这个数字上图说明:




这里写好后我们要测试下是否得到正确的联系页面地址,如果测试上图如下:




保存后我们就在建立标签那里用上这个地址,下面四楼说明这个问题

leejunji 发表于 2013-3-26 16:49:32

获取到的多页如果在规则里面使用

现在我们就按照获取到多页的地址的源代码来写采集规则了如下图



注意要选择多页,设置好了我们就保存下看下结果是怎么样 惯例上图 下面看



好了你看到了结果对了是吧
你懂了吗?

你或许注意了我们建立多页的时候 有个选项的如下图



我们选择的是第一种,第二种方式参考这个教程:5, 淘宝 天猫多页获取宝贝详细 教程:http://bbs.locoy.com/spider-131526-1-1.html

leejunji 发表于 2013-3-26 16:55:41

一楼和2楼我们是查找的方式获取到联系页面的地址是吧,

然而悲催的你用这种方式根本查找不到,可能是选择的查找字符不好,也有可能是人品有问题,方正吧 就是没有查找哦,真是悲催!!!!!!!!


那么这种请问该怎么办???????????????????????????????????????????

下面上图说明

没有办法就只能把抓到的地址一个一个查看方式如下苦逼呀





好了 此教材结束了 上帝保佑你懂 阿门!!!!!!!!!!!!!!!!!

cyp12606 发表于 2013-3-26 17:26:04

传说中的沙发。。。。。。。。。。

trustcopy 发表于 2013-4-1 18:02:16

网易博客的地址能搞出来不?

worldboyy 发表于 2013-11-28 20:09:50

淮北市民网表示这个教程详细看过,貌似,现在又忘记了- -

我是武大郎 发表于 2014-4-17 12:15:57

看看啊。必须要看看啊。

Xi.han 发表于 2014-10-6 12:20:13

多谢,楼主的帖子哦哦。哦哦哦哦
页: [1] 2
查看完整版本: fiddler 获取到多页的地址,方法讲解