火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 1994|回复: 2

请教此网页的列表分页如何采集

[复制链接]
发表于 2014-7-14 15:48:24 | 显示全部楼层 |阅读模式
网站地址 http://www.ccud.org.cn/news/
分页区域网页代码
  1.                         <div class="thepg">
  2.                                  <li class='page2'><a href='/news/index.html'>首页</a>&nbsp;</li><li class='page2'><a href='#' onclick='javascript:if(!isIndex){go(curPage-1)};return false;'>上一页</a>&nbsp;</li><li class='page2'><a href='#' onclick='javascript:go(curPage+1);return false;'>下一页</a>&nbsp;</li><li class='page2'><a href='#' onclick='javascript:go(maxPage);return false;'>末页</a>&nbsp;</li>
  3. <li id="pagingIndex" class='page2'></li>&nbsp;<li class='page3'></li><li class='page2' style='border:0px;margin:0 0 0 0;'><input name="pagenav" id="pagenav" type="text" size="2" onkeypress="javaScript:if(event.keyCode==13){go(this.value);}"></li><li class='page2'> <a href="#" onclick="javascript:go(document.getElementById('pagenav').value);return false;">Go</a>
  4. <script language="JavaScript">
  5.         var docUrl = document.location.href;
  6.         var maxPage = 207;
  7.         var curPage = 1;
  8.         var isIndex = false;
  9.         var end = docUrl.lastIndexOf("/");
  10.         if(end > 0){
  11.                 var realDocUrl = docUrl.substring(end);
  12.                 var lastToken = realDocUrl.lastIndexOf("-");
  13.                 var lastSuffix = realDocUrl.lastIndexOf(".html");
  14.                 if( lastToken>0 && lastSuffix >0 && lastSuffix > lastToken){
  15.                         curPage = realDocUrl.substring(lastToken+1,lastSuffix);
  16.                         curPage = maxPage-curPage+1;
  17.                 }else{
  18.                         isIndex = true;
  19.                 }
  20.         }
  21.         if(isNaN(curPage)){
  22.                 curPage = 1;
  23.         }
  24.         var index = "<span><b>"+curPage+"/"+maxPage+"</b></span>";
  25.         document.getElementById("pagingIndex").innerHTML=index;
  26.         function go(page){
  27.                 try{
  28.                 var baseUrl = '/news/index';
  29.                 var indexUrl = '/news/index.html';
  30.                 //var page = document.getElementById("pagenav").value;
  31.                 var url = '';
  32.                         if (page >0&&page <=maxPage){
  33.                                 page = maxPage - page+1;
  34.                                 if(page <= 0){
  35.                                         page = 1;
  36.                                         url = baseUrl+'-'+page+'.html';                       
  37.                                 }else if(page >= maxPage){
  38.                                         url = indexUrl;
  39.                                 }else{
  40.                                         url = baseUrl+'-'+page+'.html';                       
  41.                                 }
  42.                                 document.location.href=url;
  43.                                 return true;
  44.                         }else{
  45.                                 return false;
  46.                         }
  47.                         }catch(e){
  48.                                 alert("Sorry:"+e);
  49.                         }
  50.                 return false;
  51.         }
  52. </script>
  53.                
  54.                         </div>
  55.         </div>
  56.         <div class="ccndMain_rt">
复制代码
发表于 2014-7-14 18:16:29 | 显示全部楼层
抓包分析到数据后用POST模式采集.
 楼主| 发表于 2014-7-15 08:25:44 | 显示全部楼层
需要用抓包工具么,fiddle可以吧
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 10:04

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表