涉及到验证码的页面怎么采集
http://zhuanti.cbrc.gov.cn/licence/view.jsp跳转页面每次要输入验证码才能采集 我也很想知道,顶下 图片的可以写个验证码 的识别 接口
像这种验证码识别率百分之百
但它这介是文字 的,不用识别直接用php模拟提交就应该可以 你只要能想一下,一般此类的网站都是一些普通公司开发的程序,就不会存在验证码的问题了.POST /licence/view_detail.jsp HTTP/1.1
Accept: image/gif, image/jpeg, image/pjpeg, image/pjpeg, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, application/x-silverlight, application/x-shockwave-flash, application/QVOD, application/QVOD, */*
Referer: http://zhuanti.cbrc.gov.cn/licence/confirm.jsp?queryId=50
Accept-Language: zh-cn
Content-Type: application/x-www-form-urlencoded
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; QQDownload 538; .NET CLR 2.0.50727; CIBA; TheWorld)
Host: zhuanti.cbrc.gov.cn
Content-Length: 43
Connection: Keep-Alive
Pragma: no-cache
Cookie: JSESSIONID=KKhxlvnx5nWJp6v7BwvQRZBbKJVHSLJGlvyt3y15pLDpCLXTT1pr!-863211224
id=50&confirmCode=6855&confirm=%CC%E1%BD%BB其中,id是你查询的页面,confirmCode是你当然获取的值,其它的操作请参见手册里post网址采集. 这个似乎直接用火车头采集不了,上次大虫也有采这个东东,嘿嘿
页:
[1]