ghosttzs 发表于 2010-2-6 13:14:40

【研究完毕】POST采集分析研究

本帖最后由 ghosttzs 于 2010-2-7 18:11 编辑

地址是:http://www.mingsuo.com/index.jsp
第一关:
post 抓包分析出 北京javascript:citySubmit('110000','','');
北京的实际地址是 http://www.mingsuo.com/serch?_actionType=serchData&areacode=110000&citycode=&citycodename=
如果是天津 javascript:citySubmit('120000','',''); 只需要替换响应的数值即可。

第二关:
每页只显示 3页 其总共有 找到 2836589 结果 ,每页10条记录,共283659页
不过经过发现 分页按钮上的 javascript:goto(3); 代表了分页 比如要访问第100页 只需要在 javascript:goto(100);即可

第三关:
也就采集列表页,这关正在研究,有点难度。post抓包抓出来好多。。。callCount=1
page=/serch
httpSessionId=914A4A90F77BBD39BA9026695CCF0169
scriptSessionId=6B127750090DF5718268D16772F5D3CF497
c0-scriptName=sousuo
c0-methodName=getQYdata
c0-id=0
c0-param0=string:
c0-param1=string:qymc
c0-param2=string:120000
c0-param3=string:
c0-param4=string:
c0-param5=string:
c0-param6=number:2
c0-param7=number:10
batchId=4继续研究中。。。大家一起研究研究怎么攻破它吧

aven 发表于 2010-2-6 14:04:48

去年就采完了,翻下我的回复吧

ghosttzs 发表于 2010-2-7 13:17:34

本帖最后由 ghosttzs 于 2010-2-7 13:24 编辑

没找到aven所谓的回复贴。
要么就是

http://bbs.locoy.com/viewthread.php?tid=39967
本帖最后由 aven 于 2009-6-5 00:01 编辑

我能采,楼主有意可联系
QQ:三五六八六一四八 注明 mingsuo

毫无价值的回复。我不知道是否还有其他有用的回复,我也懒得去翻了,这点时间还不如自己研究。

不过可以看出aven很棒,能抓出这些数据一定有很好的功底和技术。

言归正传
通过抓包分析sousuo.getQYdata.dwr返回的参数来看,发现一条有用的信息
path=B618EC682461B5D714EBC248773031FA5AC56259EFEB7EB3ACDB3F8FFFB0FC97417C457BB5E381FAB86CFC97CDBE2B8297E43156CD80F743D6B2A7F2CDE0A1B2&searchType=qymc

path="[参数]"
于是乎灵感再现


通过测试


顺便说下:
c0-param6=number:2 这里的2可以改 是分页数量 可以改成100或者更多
c0-param7=number:10这里的10是每页显示数量,比如一页显示200条就改成200即可

OK又闯过一关 接下来就是内容页面了 呵呵 希望这个帖子对大家有用。

ghosttzs 发表于 2010-2-7 18:09:18

本帖最后由 ghosttzs 于 2010-2-7 18:13 编辑

哇卡卡 数据忒多了 终于把北京的给跑完了
发上前100条采集来的数据

PS:采集内容时候要灵活变通一下 嘿嘿

基本上全部搞定 靠人还不如靠自己呀
多谢火车头这么强大的软件 Tks

法中王 发表于 2010-2-8 00:49:45

强大的软件{:4_196:}

wang2xiang 发表于 2010-2-23 23:03:26

没搞懂,楼主能给我发一个写好的规则吗?谢谢。wang.xiangxiang@qq.com

abcde112119 发表于 2010-3-11 21:36:34

支持               {:4_197:}

inkcn 发表于 2010-6-29 23:27:12

第一关:
post 抓包分析出 北京javascript:citySubmit('110000','','');

post抓包怎么做啊?
页: [1]
查看完整版本: 【研究完毕】POST采集分析研究