火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 12520|回复: 11

js脚本控制分页(类似17173,非postf分页)通用采集办法

[复制链接]
发表于 2011-11-5 21:50:50 | 显示全部楼层 |阅读模式
本帖最后由 zhouchanglin 于 2014-3-22 12:10 编辑

类似17173的网站,现在17173好像不是js分页,而是普通的了,火车头可以直接识别
以前17173是js分页,测试了几个其他类似的js控制分页的网站,基本可以生成需要的分页

js控制分页网站如下:
一.
原网址:http://www.eol.cn/fu_xi_zhi_dao_ ... 070601_235842.shtml

接口构造地址:http://127.0.0.1/pj2/fenye.php?u ... 42.shtml&xn=eol
生成效果;


二.
原网址:http://www.99mm.cc/meitui/761.html
接口构造地址:http://127.0.0.1/pj2/fenye.php?u ... 61.html&xn=99mm

生成效果;


三。
原网址:http://meitu.xinchao.com/a/mn/qc/18459/
接口构造地址:http://127.0.0.1/pj2/fenye.php?u ... 459/&xn=xinchao
生成效果;


构造地址参数说明:
u=http://meitu.xinchao.com/a/mn/qc/18459/-------------------原网页url,用火车组合
xn=xinchao---------------xml文件名

四:普通的非js分页,页可以通过这种方式生成的,因为一般都是有规律的,可以根据总页数生成的对应数量的url的

这些网站虽然都是js控制的分页,源码里找不到火车头可以识别的分页,但是他们存在某些共同的规律吧,一般分页的构成是差不多的,基本都是包含个主体的模板,页码部分在做递增的规律性变化等,所以大部分分页都是可以通过规律构造出来,生成它们的连接;

分页url:
1.由各部分信息组合而成,因此获取各个需要的信息就是前提,在生成分页以前搜集这些信息,
2.总页数的确定:在这类js分页中,总页数往往在源码中很容易找到,
3.页码部分:规律的确定,往往和当前页存在某种运算关系





http://www.eol.cn/fu_xi_zhi_dao_ ... 070601_235842.shtml为例,看他的分页构造形式

第2页http://www.eol.cn/fu_xi_zhi_dao_ ... 0601_235842_2.shtml
源码js部分提供的分页构造有关的信息如下:
var _PAGE_COUNT="8";
var _PAGE_INDEX="0";
var _PAGE_NAME="t20070601_235842";
var _PAGE_EXT="shtml";
可见首先要能了解每个部分的意思,是否与分页构成有关,把有关的信息搜集起来,为后续生成分页html,提供前提条件
var _PAGE_COUNT="8";---------------总页数

var _PAGE_NAME="t20070601_235842";------------文件名

var _PAGE_EXT="shtml";--------------类型

分页地址大概可以以这样的格式描述:域名/目录/文件名.shtml

分页构成的部分信息的获取,路目录,可以从2处提取:1.访问页的url 2.页面得源码,获得能够完成任务的信息是前提

这样这些js分页可以简单的用相同的步骤得到分页:1.源码,url中提取信息 2.总页数确定(在获取的信息中)3.生成分页html

最后返回:源码+追加的分页html,分页格式:【分页开始】2 3 4 【分页结束】,再用火车头采集


接口是同一个文件,能够处理这些不同网站,是每个网站有对应的xml,里面设置了它们对应的需要获取的信息的数据,而xml格式是大至相同的,所以通过针对特定网站修改设置xml,可以处理类似的js分页网站,只要把网站对应的xml文件名作为xn参数,把u参数=原网页url
当然主要的数据设置在xml,  fenye.php通过xml获得需要获取的信息,从而达到可以生成分页的准备条件

大概是这样的,xml的生成,不会,所以也称不上通用,通过简单的手动修改设置xml,可以实现不同的网站分页,比针对网站独立写接口,还是有提速方便了些




js接口:  解压拷贝到本地php环境根目录即可;
有这类网站需要处理,就联系我把
[qq]972130397

火车头网络推广:http://blog.sina.com.cn/iambike007

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2011-11-9 14:00:53 | 显示全部楼层
看起来比较复杂。需要了解一下
发表于 2011-11-10 15:53:38 | 显示全部楼层
好东西啊,现在好多站都是这样的,谢谢提供啊!

同时求密码。。。
发表于 2011-11-20 08:23:31 | 显示全部楼层
学习学习
发表于 2011-12-10 23:22:54 | 显示全部楼层
定制接口找谁。。
发表于 2011-12-23 20:29:47 | 显示全部楼层
同时求密码。。。
发表于 2012-5-22 15:24:34 | 显示全部楼层
其实都可以抓到的……图片那个规则,完全可以浏览全部的方式,连分页都用不上!
发表于 2012-5-28 21:36:54 | 显示全部楼层
有没基础一点的啊   这个好复杂啊
发表于 2012-7-6 19:52:08 | 显示全部楼层
现在好多站都是这样的,谢谢提供啊!

发表于 2012-11-19 15:34:18 | 显示全部楼层
顶一下 留下 有时间 瞅瞅
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-22 12:01

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表