|
我们以 http://post.she.tom.com/C600093857.html 为例,这里是用脚本来控制分页的,具体的有关分页的代码- //current page of append
- var cur_append_page = 1;
- var total_append_page = 3 ;
复制代码 这里的3是总页数.我们看一下分页的特点.第二页http://post.she.tom.com/C600093857_2.html ,第三页http://post.she.tom.com/C600093857_3.html ,第一页另一个表示是http://post.she.tom.com/C600093857_1.html
目前程序处理这个还是不便,所以我们写些小程序,将分页代码弄成明文形式,再交给程序去处理.
目前,对于这个页面,我们用php写个小程序.代码如下:-
- <?php
- include "Snoopy-1.2.4/Snoopy.class.php";
- $tom=new Snoopy;
- $URI='http://post.she.tom.com/C600093857.html';
- $c=$tom->fetch($URI);
- $content=$tom->results;
- preg_match("/var total_append_page = (\d+) ;/",$content,$pagenum);
- $num=$pagenum['1'];
- echo '<div id=locoypages>';
- for($i=1;$i<$num+1;$i++){
- echo '<a href="'.str_replace('.html','_'.$i.'.html',$URI).'">'.$i.'</a>';
- }
- echo '</div>';
- ?>
复制代码 然后用火车采集,就可以得到所有内容.
基本原理就这样,你可以自己想出更好的办法. |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?加入会员
x
评分
-
1
查看全部评分
-
|