jeman 发表于 2010-7-5 10:51:09

求助-为什么采集不到网址?

本帖最后由 jeman 于 2010-7-7 16:09 编辑

http://new.hxrc.com/JobSearchResult.aspx?SearchKind=2&KeyWord=%u798f%u6e05
这个页面为什么采集不到招聘信息的地址?很奇怪,这个页面是post方式得到网址的,就算不用post只取第一页也是得不到网址
地址必须包含:CompanyOneJobDetail.aspx?jobGuid=

post数据__VIEWSTATE=&select=%E8%AF%B7%E9%80%89%E6%8B%A9%E8%81%8C%E4%BD%8D%E7%B1%BB%E5%88%AB&select2=%E8%AF%B7%E9%80%89%E6%8B%A9%E5%8F%91%E5%B8%83%E6%97%B6%E9%97%B4&textfield=%E8%AF%B7%E8%BE%93%E5%85%A5%E5%85%B3%E9%94%AE%E5%AD%97%E6%9F%A5%E8%AF%A2&__EVENTTARGET=AspNetPager1&__EVENTARGUMENT=[分页]分页标签:1-5页

随机值前字符串:<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="
随机值后字符串:" />
分上面设置的采集不到对应的地址
我啥都不设置就采集第一页的话也是得不到有得的地址?折腾了很久,实在找不到原先,所以来这里求各位朋友帮我看看什么原因
版本:V2009 sp4或V3.2SP5都试过。

zjyk1984 发表于 2010-7-5 12:13:40

可以获得的,没有问题

jeman 发表于 2010-7-5 12:53:50

本帖最后由 jeman 于 2010-7-5 12:56 编辑

不是吧?你那边能得到数据吗?我怎么不行噢?我就只能得到下列地址

wensrrr 发表于 2010-7-6 02:00:44

是没问题才对的``{:4_189:}

jeman 发表于 2010-7-6 09:35:30

唉,折腾了许久,总算找出问题所在了,原来是url要utf-8编码,用gb2312编码的话就取不了地址
福清 编码%E7%A6%8F%E6%B8%85(utf-8编码方式)
%u798f%u6e05 解码 福清(编码方式)
可是为什么第一页的url是
http://new.hxrc.com/JobSearchResult.aspx?SearchKind=2&KeyWord=%u798f%u6e05
却能看到搜索的内容,再用%u798f%u6e05 post方式取得网址就取不到其它页的url了
http://new.hxrc.com/JobSearchResult.aspx?SearchKind=2&KeyWord=%E7%A6%8F%E6%B8%85这样就可以了
页: [1]
查看完整版本: 求助-为什么采集不到网址?