【研究完毕】POST采集分析研究
本帖最后由 ghosttzs 于 2010-2-7 18:11 编辑地址是:http://www.mingsuo.com/index.jsp
第一关:
post 抓包分析出 北京javascript:citySubmit('110000','','');
北京的实际地址是 http://www.mingsuo.com/serch?_actionType=serchData&areacode=110000&citycode=&citycodename=
如果是天津 javascript:citySubmit('120000','',''); 只需要替换响应的数值即可。
第二关:
每页只显示 3页 其总共有 找到 2836589 结果 ,每页10条记录,共283659页
不过经过发现 分页按钮上的 javascript:goto(3); 代表了分页 比如要访问第100页 只需要在 javascript:goto(100);即可
第三关:
也就采集列表页,这关正在研究,有点难度。post抓包抓出来好多。。。callCount=1
page=/serch
httpSessionId=914A4A90F77BBD39BA9026695CCF0169
scriptSessionId=6B127750090DF5718268D16772F5D3CF497
c0-scriptName=sousuo
c0-methodName=getQYdata
c0-id=0
c0-param0=string:
c0-param1=string:qymc
c0-param2=string:120000
c0-param3=string:
c0-param4=string:
c0-param5=string:
c0-param6=number:2
c0-param7=number:10
batchId=4继续研究中。。。大家一起研究研究怎么攻破它吧 去年就采完了,翻下我的回复吧 本帖最后由 ghosttzs 于 2010-2-7 13:24 编辑
没找到aven所谓的回复贴。
要么就是
http://bbs.locoy.com/viewthread.php?tid=39967
本帖最后由 aven 于 2009-6-5 00:01 编辑
我能采,楼主有意可联系
QQ:三五六八六一四八 注明 mingsuo
毫无价值的回复。我不知道是否还有其他有用的回复,我也懒得去翻了,这点时间还不如自己研究。
不过可以看出aven很棒,能抓出这些数据一定有很好的功底和技术。
言归正传
通过抓包分析sousuo.getQYdata.dwr返回的参数来看,发现一条有用的信息
path=B618EC682461B5D714EBC248773031FA5AC56259EFEB7EB3ACDB3F8FFFB0FC97417C457BB5E381FAB86CFC97CDBE2B8297E43156CD80F743D6B2A7F2CDE0A1B2&searchType=qymc
path="[参数]"
于是乎灵感再现
通过测试
顺便说下:
c0-param6=number:2 这里的2可以改 是分页数量 可以改成100或者更多
c0-param7=number:10这里的10是每页显示数量,比如一页显示200条就改成200即可
OK又闯过一关 接下来就是内容页面了 呵呵 希望这个帖子对大家有用。 本帖最后由 ghosttzs 于 2010-2-7 18:13 编辑
哇卡卡 数据忒多了 终于把北京的给跑完了
发上前100条采集来的数据
PS:采集内容时候要灵活变通一下 嘿嘿
基本上全部搞定 靠人还不如靠自己呀
多谢火车头这么强大的软件 Tks 强大的软件{:4_196:} 没搞懂,楼主能给我发一个写好的规则吗?谢谢。wang.xiangxiang@qq.com 支持 {:4_197:} 第一关:
post 抓包分析出 北京javascript:citySubmit('110000','','');
post抓包怎么做啊?
页:
[1]