Post列表页采集超详细教程(附工具)
10张图片,详细按步骤解说,实战抓包数据,最终采集规则及中文汉化免杀版 抓包工具
可能有很多新手为必须post才能得到列表内容的采集而郁闷吧,
没关系,保你看过此贴后就立马会采类似的站点。
何谓post才能得到列表,就是一般用了ajax或.NET中的一些技术
当你请求新内容时,页面只进行局部刷新,地址栏中的URL不变。
我们处理此类采集时的思路就是用抓包工具,截取请求时提交的内容
找出共同特点,用火车中的“分页”变量进行替换并给定值范围,
这样火车在采集时会自动提交请求内容得到新的内容列表进行采集。
我就着重说下怎么样抓包,抓哪的包及处理抓包得到的数据。内容的
采集和普通页面一样,在此就不多说了。下面开始,
抓包工具:WSockExpert(我一般都用这个,当然也可以用其它类似的)
由于它被归为黑客软件,虽然我上传的是免杀版本但在有个别杀毒软件下也可能会误报。
目标网址:http://www.banzhu.net/column/dsfn-3.html
首选我们用浏览器打开此页面,标题是
当你进行翻页时就会发现此页是用post提交翻页请求的。
下面打开今天的主角--WSockExpert,界面如下
此时你点击我标注的“打开”,会出现如图让你选择进程
由于我用的是遨游,所以先找maxthon.exe,点击它会出现你打开的网页的标题
此时我们选中上面标题中的那项,点右下角的打开
现在要做的就是最小化WSockExpert,回到浏览器界面
进行翻页操作,注意此时不是急,一般翻两次就可以找出规律
第一次翻页时WSockExpert窗口大体如下:
你会看到一个很碍眼的词“POST”
对我们要找的就是它,一般紧跟着这个动作的下一行
就是POST的数据,也就是我们说的抓包的内容,你点击
POST下面那行会出现下图(第二页)
把最下面我标注的内容复制到一个文本中以便和请求第三页
POST的数据进行对比。
第三页POST后WSockExpert窗口大致如下
你会看到已经有两个POST了,对上面是第二页时请求的内容,下面
就是第三页请求的内容了,照例复制提交数据到原来的文本仔细对比
你会发现就一点不同(看我标注的地方),图如下
把把抓包数据中我标注的地方换成火车中的[分页] 变量,复制到火车中,如下图
注意上面HTTP获取方式一定选POST,用分页变量替换拍的包数据复制到
发送数据中,并在后面注明分页的范围。
测试一下会出现如下图
设定了8页,全部成功获取。
内容采集的制做过程就不说的,就当普通页面处理
只来个最终结果图
到此,教程结束。有不对之处请多多指教!! 看上去不错,但卖钱不厚道阿~~ ali13ls ali13ls ali13ls ali13ls ali13ls ali14ls ali14ls ali14ls ali14ls :lol :lol 这个还算比较有规律 没规律的就不好弄了
http://www.pdsjob.cn/recruitment/search_list.aspx?sea=1 弄弄这个看看 一个规则我给你30RMB 我的QQ:16903475 妈的还要钱的啊ali14ls 呵呵,楼主不错,这对新手很实用 抓了一个小时
http://www.52design.com/list/enjoy_list.asp?class=472
这个还是抓不出来 不错,以后有机会再看:lol