已经修改了POST随机值,为什么还是不能通过post方式获取列表?
本帖最后由 rockyhuang 于 2012-4-19 00:21 编辑有大侠吗?我在抓http://www.fsccjys.gov.cn:8080/RMSALEPUBWEB/SaleCount2.aspx,post方式获取列表 发送的数据,我已经按照教程例子,把最后不相同的内容修改成 %%3D
为啥还不行啊?
我抓下来的包是这样的,第二页:__EVENTTARGET=lnkBtnNext&__EVENTARGUMENT=&__VIEWSTATE=//中间部分相同省略// %2BJx73i3F9eAkqDCAdMo%3D
第三页:__EVENTTARGET=lnkBtnNext&__EVENTARGUMENT=&__VIEWSTATE=//中间部分相同省略// %2Be7azyGGyt4XOIaDaDnjoLoDIWF4%3D 看到头疼的很,这么多代码 版主啊版主!我参考杭州人才网的例子重新分析了一下页面。发现网站的分页是通过lnkBtnNext这个参数来控制的,没有具体数字,和火车头的[分页]参数不一样,请问怎样解决?我是这样写的。
__EVENTTARGET=lnkBtnNext&__EVENTARGUMENT=&__VIEWSTATE= 这里好像有解答,http://bbs.locoy.com/spider-56376-1-1.html看看先 悬赏,有人解答吗? 不止后面不一样,中间长串内容也有2处不一样。 用就可以不用管它,是viewstate的value值,直接引用就可以。现在已经可以实现翻页了,但是我才的不是网址列表,而是翻页内容,就这当前页面上,不是在下一级页面上。不知道如何实现。 楼主做个接口模拟post就可以了,可以做到把列表当内容页来采集,因为火车头列表规则目的是获取内容页的,所以处理这类列表即是内容页的采集不容易,做个php接口处理这个post请求相当于内容页模拟post这样就采集到了。
高难度采集 联系QQ:http://wpa.qq.com/pa?p=2:972130397:47 本帖最后由 rockyhuang 于 2013-2-17 18:02 编辑
用post随机值+手动填写链接地址规则,能采到每个分页的地址了,但是出现了分页网址重复4次,和分页网址无法encode,采不了内容的情况,求解答。 本帖最后由 rockyhuang 于 2013-2-18 11:05 编辑
呵呵,终于搞定了,因为火车头的分页内容采集没有分页网址转urlencode功能,导致分页页面错误,现在只能通过2010版先搬分页网址采集,然后用导出同级网址选项导成TXT,然后收到将+换成%2B,=号换成%3D,手动转成urlencode,然后在用v7版采集,最后导出EXCEL文件。2010版只能导出TXT不能导出EXCEL。免费版的就是无奈,另外管理员在么,能不能改进一下,让分页网址也能够选择URLencode模式。
页:
[1]