火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
楼主: zhouchanglin

js post网站专区

[复制链接]
发表于 2011-3-21 12:51:53 | 显示全部楼层
本帖最后由 lee1986320 于 2011-3-22 09:13 编辑

http://adidas.jobpartners.com/jpapps/adidas_global/index.jsp
如何选择到中国,采集到中国的招聘信息。。。里面是JS写的
发表于 2011-3-22 14:15:57 | 显示全部楼层
想采集这个网站这个目录下的内容:http://hotels.ctrip.com/hotel/sanya43/2/

抓包得到下面这个东西:
__EVENTTARGET=lnkbtnNext&__EVENTARGUMENT=&__VIEWSTATE=%2FwEPDwULLTIwODI4NjIyMjAPZBYCAgMPZBYEAgMPZBYCAgQPFgQeCm9ubW91c2VvdXRlHgVjbGFzcwUGbmF2X29uZAIbD2QWBAIBD2QWAmYPZBYCAgMPD2QPEBYBZhYBFgIeDlBhcmFtZXRlclZhbHVlZBYBAgNkZAICD2QWAmYPZBYIAgEPDxYCHgRUZXh0BQEyZGQCAw8PFgIfAwUKMTEtMjAvNTYyNWRkAgUPDxYEHwMFBummlumhtR4HRW5hYmxlZGdkZAIHDw8WBB8DBQbkuIrpobUfBGdkZBgCBR5fX0NvbnRyb2xzUmVxdWlyZVBvc3RCYWNrS2V5X18WAgUJcmRrd3R5cGUxBQlyZGt3dHlwZTIFCUdyaWRWaWV3MQ88KwAKAQgCAWS6E1aEgK7G30tyT11%2Bu8nei8brSg%3D%3D&__EVENTVALIDATION=%2FwEWEQLeztqmBgK%2F0MS2DgKz%2F4rAAwKSjoHdDgKi8emhDwKAyr3kBAL4vrX7DgK8xNPnBALcr8ueDQKSsN%2BXCAK%2BsdPcCALWho%2F8BgLXho%2F8BgLJ7dzzBAKB5bO7BQK23PKlAgL3iYdoQ87v%2FLSrtZTIM8RXKZB0nXMS03o%3D&hid_action=align%3DS%26worckcity%3D%25E5%258D%2597%25E4%25BA%25AC%252c%26kwType%3D1&head1%24hid_topID=1&div_show=&divcity_show=%E5%8D%97%E4%BA%AC%2C&ddlPublishDate=-1&ddlWorkYear=-1&ddlSalary=-1&ddlEduRe=-1&chkWorkMethod=-1&txtKeyword=&rdkwtype=1

POST采集的时候,如何填写呢?
红色部分是两个随机值?
分页呢?
55555555……
先谢过了……
 楼主| 发表于 2011-3-22 14:43:47 | 显示全部楼层
回复 102# 四川开来

http://hotels.ctrip.com/hotel/sanya43/里有所有的酒店id,源码里可以看到录下部分,即是全部id,可以参考本帖92楼 的,也是携程的
  1. allHotels:'25287,21996,77569,72524,45905,20807,52823,74033,22814,25509,67762,12068,62946,83043,21737,54998,62776,75682,74517,7388,6252,19248,18897,44766,13763,80819,46235,21542,22024,57458,79122,25491,84827,74657,55166,55029,21627,79759,74395,75708,11729,64617,79871,85656,46323,22044,20327,82399,71808,23003,75821,46255,77944,85043,46324,26748,82980,85476,77953,46334,75418,75554,82561,82093,85196,78838,56594,86544,83117,83949,83879,85760,68185,84942,17005,25105,78135,85079,19353,18343,3151,5801,57217,22113,50142,20353,20324,45963,7306,22058,45203,64415,71933,19723,75448,78967,65655,49841,84940,79452,7389,79869,22254,68107,80553,79804,64720,7414,22110,50100,71730,71482,74569,82967,22234,80373,76900,71999,79794,84993,79897,80099,65382,84986,81390,79412,80374,46227,85267,79767,81239,81420,72288,62132,79640,80184,79739,80823,81613,80371,71529,80370,80185,79805,82137,79880,76270,66412,67563,66266,46609,76631,79648,85047,84981,83000,80633,80481,80433,81954,81340,78663,82222,80840,22388,6263,18365,83119,52613,46329,18747,14964,83831,26759,46444,74159,83832,46256,22253,18731,3153,85048,20644,16044,66069,64174,84941,14243,23317,80068,84386,83442,83272,84667,80183,77639,83811,79929,80822,82249,77662,76776,71206,80479',
复制代码
发表于 2011-3-24 13:14:32 | 显示全部楼层
http://xunren.baidu.com/

百度寻人,JS的,谢谢.
 楼主| 发表于 2011-3-24 13:44:45 | 显示全部楼层
本帖最后由 zhouchanglin 于 2011-3-24 13:45 编辑

回复 105# 459137723
http://xunren.baidu.com/i?ct=2&a ... 72985665,3266793481
  1. pn=12
复制代码
:页数,0开始,间隔12

数据在源码可以直接看到,用自定义网址即可路:
  1. "detailUrl":"http://xunren.baidu.com/i?ct=6&bt=1&tn=baidudetaillost&isign=1079794011,567346090&tsign=823721843,2371829456",
复制代码
就是内容页
  1. var xrdata = {
  2.         "totalNum":"3000",
  3.         "rn":"12",
  4.         "babyType":"1",
  5.         "errMsg":"",
  6.         "browseSign":"1972985665,3266793481",
  7.         "data":[{
  8.     "thumbURL":"http://xunren.baidu.com/i?ct=7&bt=2&tn=baiduimgdata&isign=1079794011,567346090",
  9.         "detailUrl":"http://xunren.baidu.com/i?ct=6&bt=1&tn=baidudetaillost&isign=1079794011,567346090&tsign=823721843,2371829456",
  10.         "imgID":"$bdImgID$",
  11.         "imgSign":"1079794011,567346090",
  12.         "textSign":"823721843,2371829456",
  13.         "curNum":"12",
  14.         "detail":"$bdDetail$"
  15. },
  16. 。。。。。。。。。。。。。。。。。。。。。。。。$"
  17. },
  18. {}]
  19. };
复制代码
发表于 2011-3-24 16:36:16 | 显示全部楼层
http://www.globalaverydennison.apply2jobs.com/ProfExt/index.cfm?fuseaction=mExternal.showSearchInterface
我选择CHINA后  选择SEARCH后抓到POST
txtKeyword=&ConceptualKeyWordSearchCriteria=&searchJobID=&searchInterestCategoryID=&searchUserDefined2ID=&searchCountryID=46&searchCityID=
searchCountryID=46为中国的信息,但是加到地址栏上一直出错,如何才能得到正确的URL请大哥赐教~
 楼主| 发表于 2011-3-24 17:44:18 | 显示全部楼层
回复 108# lee1986320

这个网站是首先在搜索页搜索,然后在结果页翻页的,这样的网站有的是把用户的搜索条件记录到另一个表单的元素里,这个却不是,结果页没有这样的表单,但总有东西需要记录用户的条件,这样的可以考虑是不是cooike记录的

结果页地址并非是post的,而是
  1. http://www.globalaverydennison.apply2jobs.com/ProfExt/index.cfm?fuseaction=mExternal.returnToResults&CurrentPage=3
复制代码
fuseaction=mExternal.returnToResults根据意思可知道fuseaction是请求的目的,mExternal.returnToResults是返回搜索结果,fuseaction=mExternal.searchJobs是到搜索页面,内容页里fuseaction=mExternal.showJob显示职位

这个网站是cooike记录的,所以只要用,使用抓取搜索后的cooike即可,然后列表添
  1. http://www.globalaverydennison.apply2jobs.com/ProfExt/index.cfm?fuseaction=mExternal.returnToResults&CurrentPage=分页
复制代码

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2011-3-25 08:57:01 | 显示全部楼层
本帖最后由 lee1986320 于 2011-3-25 09:03 编辑

http://careers.peopleclick.com/careerscp/client_philips/external/en/gateway.do?locale=en&functionName=searchFromLink&com.peopleclick.cp.formdata.hitsPerPage=500&com.peopleclick.cp.formdata.FLD_JP_COUNTRY=51
分页调用了submitOnce() 函数;这个函数不知道怎么用
好像不是用COOKIE和表单保存数据,又请大哥赐教了~
POST 为
functionName=search&pageIndex=&com.peopleclick.cp.formdata.jobPost_233635_en-us=&com.peopleclick.cp.formdata.jobPost_233490_en-us=&com.peopleclick.cp.formdata.jobPost_233488_en-us=&com.peopleclick.cp.formdata.jobPost_233484_en-us=&com.peopleclick.cp.formdata.jobPost_233482_en-us=&com.peopleclick.cp.formdata.jobPost_233480_en-us=&com.peopleclick.cp.formdata.jobPost_233478_en-us=&com.peopleclick.cp.formdata.jobPost_233474_en-us=&com.peopleclick.cp.formdata.jobPost_233077_en-us=&com.peopleclick.cp.formdata.jobPost_233351_en-us=&PARAMFILTER%3AfunctionName%3Dsearch%7CpageIndex%3D2%7C=%3E
最后的数据好像和分页有关但加到地址栏就错了

我搜了下论坛,是否是要用插件解决?
 楼主| 发表于 2011-3-25 14:35:07 | 显示全部楼层
本帖最后由 zhouchanglin 于 2011-3-25 14:38 编辑

回复 110# lee1986320

不需要插件,这个网站和你前一个差不多,都是在搜索页搜索后,到结果页,结果页没有记录搜索条件的表单,所以还是使用cooike做为 当前的搜索条件,

  1. http://careers.peopleclick.com/careerscp/client_philips/external/en/gateway.do?locale=en&functionName=searchFromLink&com.peopleclick.cp.formdata.hitsPerPage=500&com.peopleclick.cp.formdata.FLD_JP_COUNTRY=51
复制代码
这个你给的地址我不清楚是哪里的连接,并不是搜索页,搜索页是
  1. https://careers.peopleclick.com/careerscp/client_philips/external/en/search.do
复制代码
,在这个里面搜索后的结果里页码部分是
  1. <input class="pc-rtg-navButton"  type="submit" name="PARAMFILTER:functionName=search|pageIndex=2|" value="2" onclick="return submitOnce();">

  2.                 <input class="pc-rtg-navButton"  type="submit" name="PARAMFILTER:functionName=search|pageIndex=3|" value="3" onclick="return submitOnce();">

  3.                 <input class="pc-rtg-navButton"  type="submit" name="PARAMFILTER:functionName=search|pageIndex=4|" value="4" onclick="return submitOnce();">
复制代码
,可见页码都是提交按钮,也就说点页码会提交表单,而这些按钮记录了请求的页码


下面是提交前的触发函数submitOnce(),作用只是防止表单提交一次以上
防单表格提交一次以上
  1. var g_isFormSubmitted = false
  2. //prevents form to be submitted more than once   
  3. function submitOnce() {
  4.     if (!g_isFormSubmitted){
  5.         g_isFormSubmitted = true;
  6.         return true;
  7.     }
  8.     else {
  9.         return false;
  10.     }   
  11. }
复制代码
post表单:<form name="searchResultForm" method="post" action="search.do">
       
路第2页name="PARAMFILTER:functionName=search|pageIndex=2|" value="2"可见变化的的数字对应页码,这样post地址是
  1. https://careers.peopleclick.com/careerscp/client_philips/external/en/search.do?functionName=search&pageIndex=&PARAMFILTER:functionName=search|pageIndex=页码|=页码
复制代码
,由于这个地址有特殊的支付要编码,所以应该抓下包的,获得编码的是
  1. https://careers.peopleclick.com/careerscp/client_philips/external/en/search.do?functionName=search&pageIndex=&PARAMFILTER%3AfunctionName%3Dsearch%7CpageIndex%3D页码%7C=页码
复制代码
那摩第2页就是https://careers.peopleclick.com/ ... CpageIndex%3D2%7C=2,前提是你搜索过内容,打开的就是当前搜索的第2页

需要登录,使用cooike,我用抓包工具没有抓到这个网站的cooike,不知道为什么,
这是火车头内置抓取的







下拉框有个每页数量,默认10


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2011-3-28 08:45:45 | 显示全部楼层
再请教个问题
https://careers.microsoft.com/Search.aspx?ss=&jc=all&rg=CN&vr=1
第一页能采到,想用POST分页,但抓POST为乱码
每次换页系统会自动加上红字  https://careers.microsoft.com/Search.aspx#&&page=8   
我想在后面 https://careers.microsoft.com/Search.aspx#&&page=8 加上&ss=&jc=all&rg=CN&vr=1 也不行~
加了COOKIES也不行貌似


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-10-7 02:32

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表