找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 13692|回复: 9

列表页分页和内容分页采集原理

[复制链接]
发表于 2013-2-26 12:01:51 | 显示全部楼层 |阅读模式
本帖最后由 zml123 于 2013-2-26 13:23 编辑

列表页分页和内容页分页原理是一样的,目的就是为了获取到下一页的地址!
除了js跳转的分页要插件处理以外,大部分的分页采集器是可以采集的!
下面用实例讲解下,获取分页的原理
http://b2b.youboy.com/class2/1_1036/
这个列表页我们要想在列表页获取下一页,首先看下第一页的源代码!
  1. <div class="page">
  2.    
  3.    <SPAN class='current'>1</SPAN> <A href='/class2/1_1036/index2.html'>2</A> <A href='/class2/1_1036/index3.html'>3</A> <A href='/class2/1_1036/index4.html'>4</A> <A href='/class2/1_1036/index5.html'>5</A> <A href='/class2/1_1036/index6.html'>6</A> <A href='/class2/1_1036/index7.html'>7</A> <A href='/class2/1_1036/index8.html'>8</A> <A href='/class2/1_1036/index9.html'>9</A> <A href='/class2/1_1036/index10.html'>10</A>  
  4.   
  5.   <A href='/class2/1_1036/index2.html'>></A>
  6.   <A href='/class2/1_1036/index500.html'>>></A>
  7.    
  8.   </div>
复制代码
代码如上,原理就是:在第一页采集,怎么获取到分页第二页地址,在第二页怎么获取到第三页的地址,依次类推。一直获取到最后一页。
再分析下第二页的源代码
  1. <div class="page">
  2.    
  3.   <a href='/class2/1_1036/'><<</a>
  4.   <A href="index1.html"><</A>
  5.   
  6.    <A href='/class2/1_1036/'>1</A> <SPAN class='current'>2</SPAN> <A href='/class2/1_1036/index3.html'>3</A> <A href='/class2/1_1036/index4.html'>4</A> <A href='/class2/1_1036/index5.html'>5</A> <A href='/class2/1_1036/index6.html'>6</A> <A href='/class2/1_1036/index7.html'>7</A> <A href='/class2/1_1036/index8.html'>8</A> <A href='/class2/1_1036/index9.html'>9</A> <A href='/class2/1_1036/index10.html'>10</A>  
  7.   
  8.   <A href='/class2/1_1036/index3.html'>></A>
  9.   <A href='/class2/1_1036/index500.html'>>></A>
  10.    
  11.   </div>
  12.     </div>
复制代码
综合以上2段代码可以看出来。获取到这个分页,首先要确定下分页的范围,这个范围要保证每个页面都有!
我们选取以<div class="page">开始,以</div>结束!

范围选取好了,要设置获取到当前页的下一页地址了,可以首先试着自动识别分页,如果自动识别分页获取不到,或者获取不全!这样可以考虑地址样式获取
通过代码比对,可以这样设置<SPAN class='current'>(*)</SPAN> <A href='[参数]'。这个参数就是下一页的地址了!这样就可以获取到分页了!




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2013-3-11 18:54:34 | 显示全部楼层
列表页的内容,又是搞不懂。
发表于 2013-4-20 02:20:53 | 显示全部楼层
帅气~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
发表于 2013-8-14 09:16:21 | 显示全部楼层
是挺不错的。按这个采集一下试一下!
发表于 2013-11-28 20:50:46 | 显示全部楼层
路过呢哦,必须多个啊
发表于 2014-3-7 05:48:53 | 显示全部楼层
QQ号为137178124的这个人号称专业采集,我购买shopex接口,一开始明明说好150包教会,发教程的,谁知道支付宝即时到帐,钱打过去就变卦了。后来不断的忽悠我让我再打钱过去,说400元买开源的包教会,我是说死也不敢再信了。他在火车头里面有好几个马甲,大家小心了,认准他的QQ就行。137178124
估计是行骗太多,混不下去了,在论坛里太多马甲。他的马甲ID有:xiaoyao2008(火车头论坛) ,  locoy2020(火车头论坛),diandianchunchu(shopex论坛),金色的小麦芽(旺旺ID),淘宝店铺(http://shop105325046.taobao.com),
发表于 2014-3-25 21:52:31 | 显示全部楼层
吖的.这么大的字体有鬼用啊..只说了列表的分页.内容的呢~?~
发表于 2014-8-27 13:52:06 | 显示全部楼层
没有经过培训,很多看不懂。
发表于 2015-5-13 15:11:17 | 显示全部楼层
得脂肪肝的功夫大使馆
发表于 2015-8-17 09:53:53 | 显示全部楼层
我这人很懒,看帖基本上不回,但这次非常感谢楼主此贴!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表