找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7302|回复: 10

对于分页中使用脚本控制分页的采集方法

[复制链接]
发表于 2008-11-6 17:11:24 | 显示全部楼层 |阅读模式
我们以 http://post.she.tom.com/C600093857.html 为例,这里是用脚本来控制分页的,具体的有关分页的代码
  1. //current page of append
  2. var cur_append_page = 1;
  3. var total_append_page = 3 ;
复制代码
这里的3是总页数.我们看一下分页的特点.第二页http://post.she.tom.com/C600093857_2.html ,第三页http://post.she.tom.com/C600093857_3.html ,第一页另一个表示是http://post.she.tom.com/C600093857_1.html

目前程序处理这个还是不便,所以我们写些小程序,将分页代码弄成明文形式,再交给程序去处理.

目前,对于这个页面,我们用php写个小程序.代码如下:

  1. <?php
  2. include "Snoopy-1.2.4/Snoopy.class.php";
  3. $tom=new Snoopy;
  4. $URI='http://post.she.tom.com/C600093857.html';
  5. $c=$tom->fetch($URI);
  6. $content=$tom->results;
  7. preg_match("/var total_append_page = (\d+) ;/",$content,$pagenum);
  8. $num=$pagenum['1'];
  9. echo '<div id=locoypages>';
  10. for($i=1;$i<$num+1;$i++){
  11. echo '<a href="'.str_replace('.html','_'.$i.'.html',$URI).'">'.$i.'</a>';
  12. }
  13. echo '</div>';
  14. ?>
复制代码
然后用火车采集,就可以得到所有内容.


基本原理就这样,你可以自己想出更好的办法.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x

评分

1

查看全部评分

发表于 2008-11-6 17:17:02 | 显示全部楼层
good!!!!!!!!!!!!!!!!!!!!!

发表于 2008-11-6 18:10:07 | 显示全部楼层
可是 我看不懂。。。
发表于 2008-11-7 12:07:50 | 显示全部楼层
正在学习php编程,还能看懂一点点,呵呵,努力中,争取也来写接口!
发表于 2008-11-26 15:30:44 | 显示全部楼层
没有发布类文件...没用.
发表于 2008-12-12 09:22:56 | 显示全部楼层
谢谢!
希望楼主能够说明一下,遇到类似的情况那些可以修改.PHP不大懂,实在不好意思!
发表于 2008-12-13 22:04:10 | 显示全部楼层
唉  努力学习  争取早日成为老鸟
发表于 2009-2-6 09:52:52 | 显示全部楼层
不是很懂,顶吧!
发表于 2009-2-7 00:37:03 | 显示全部楼层
你写完这个代码放到哪里啊,怎么也不说明一下怎么用啊?
发表于 2009-2-10 12:17:34 | 显示全部楼层
是啊,没有说明白啊。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表