aven 发表于 2008-9-25 00:17:27

Post列表页采集超详细教程(附工具)




10张图片,详细按步骤解说,实战抓包数据,最终采集规则及中文汉化免杀版 抓包工具

可能有很多新手为必须post才能得到列表内容的采集而郁闷吧,

没关系,保你看过此贴后就立马会采类似的站点。









何谓post才能得到列表,就是一般用了ajax或.NET中的一些技术

当你请求新内容时,页面只进行局部刷新,地址栏中的URL不变。


我们处理此类采集时的思路就是用抓包工具,截取请求时提交的内容

找出共同特点,用火车中的“分页”变量进行替换并给定值范围,

这样火车在采集时会自动提交请求内容得到新的内容列表进行采集。

我就着重说下怎么样抓包,抓哪的包及处理抓包得到的数据。内容的

采集和普通页面一样,在此就不多说了。下面开始,


抓包工具:WSockExpert(我一般都用这个,当然也可以用其它类似的)

由于它被归为黑客软件,虽然我上传的是免杀版本但在有个别杀毒软件下也可能会误报。

目标网址:http://www.banzhu.net/column/dsfn-3.html

首选我们用浏览器打开此页面,标题是

当你进行翻页时就会发现此页是用post提交翻页请求的。

下面打开今天的主角--WSockExpert,界面如下



此时你点击我标注的“打开”,会出现如图让你选择进程



由于我用的是遨游,所以先找maxthon.exe,点击它会出现你打开的网页的标题

此时我们选中上面标题中的那项,点右下角的打开

现在要做的就是最小化WSockExpert,回到浏览器界面

进行翻页操作,注意此时不是急,一般翻两次就可以找出规律

第一次翻页时WSockExpert窗口大体如下:



你会看到一个很碍眼的词“POST”

对我们要找的就是它,一般紧跟着这个动作的下一行

就是POST的数据,也就是我们说的抓包的内容,你点击

POST下面那行会出现下图(第二页)



把最下面我标注的内容复制到一个文本中以便和请求第三页

POST的数据进行对比。

第三页POST后WSockExpert窗口大致如下




你会看到已经有两个POST了,对上面是第二页时请求的内容,下面

就是第三页请求的内容了,照例复制提交数据到原来的文本仔细对比

你会发现就一点不同(看我标注的地方),图如下






把把抓包数据中我标注的地方换成火车中的[分页] 变量,复制到火车中,如下图

 

注意上面HTTP获取方式一定选POST,用分页变量替换拍的包数据复制到

发送数据中,并在后面注明分页的范围。

测试一下会出现如下图




设定了8页,全部成功获取。

内容采集的制做过程就不说的,就当普通页面处理

只来个最终结果图



到此,教程结束。有不对之处请多多指教!!

wyh4444 发表于 2008-9-25 10:13:18

看上去不错,但卖钱不厚道阿~~

yoochenil 发表于 2008-9-25 20:15:55

ali13ls ali13ls ali13ls ali13ls ali13ls

yoochenil 发表于 2008-9-25 20:16:27

ali14ls ali14ls ali14ls ali14ls

aven 发表于 2008-9-26 09:07:30

:lol :lol

wsymz122 发表于 2008-9-26 16:38:57

这个还算比较有规律 没规律的就不好弄了

http://www.pdsjob.cn/recruitment/search_list.aspx?sea=1 弄弄这个看看 一个规则我给你30RMB 我的QQ:16903475

a243329010 发表于 2008-9-27 02:07:28

妈的还要钱的啊ali14ls

dumu 发表于 2008-9-30 09:29:11

呵呵,楼主不错,这对新手很实用

qqab 发表于 2008-10-3 18:48:14

抓了一个小时
http://www.52design.com/list/enjoy_list.asp?class=472
这个还是抓不出来

newsoft 发表于 2008-10-8 20:03:10

不错,以后有机会再看:lol
页: [1] 2 3
查看完整版本: Post列表页采集超详细教程(附工具)