zml123 发表于 2013-2-26 12:01:51

列表页分页和内容分页采集原理

本帖最后由 zml123 于 2013-2-26 13:23 编辑

列表页分页和内容页分页原理是一样的,目的就是为了获取到下一页的地址!
除了js跳转的分页要插件处理以外,大部分的分页采集器是可以采集的!
下面用实例讲解下,获取分页的原理
http://b2b.youboy.com/class2/1_1036/
这个列表页我们要想在列表页获取下一页,首先看下第一页的源代码!<div class="page">
   
   <SPAN class='current'>1</SPAN> <A href='/class2/1_1036/index2.html'>2</A> <A href='/class2/1_1036/index3.html'>3</A> <A href='/class2/1_1036/index4.html'>4</A> <A href='/class2/1_1036/index5.html'>5</A> <A href='/class2/1_1036/index6.html'>6</A> <A href='/class2/1_1036/index7.html'>7</A> <A href='/class2/1_1036/index8.html'>8</A> <A href='/class2/1_1036/index9.html'>9</A> <A href='/class2/1_1036/index10.html'>10</A>

<A href='/class2/1_1036/index2.html'>></A>
<A href='/class2/1_1036/index500.html'>>></A>
   
</div>代码如上,原理就是:在第一页采集,怎么获取到分页第二页地址,在第二页怎么获取到第三页的地址,依次类推。一直获取到最后一页。
再分析下第二页的源代码<div class="page">
   
<a href='/class2/1_1036/'><<</a>
<A href="index1.html"><</A>

   <A href='/class2/1_1036/'>1</A> <SPAN class='current'>2</SPAN> <A href='/class2/1_1036/index3.html'>3</A> <A href='/class2/1_1036/index4.html'>4</A> <A href='/class2/1_1036/index5.html'>5</A> <A href='/class2/1_1036/index6.html'>6</A> <A href='/class2/1_1036/index7.html'>7</A> <A href='/class2/1_1036/index8.html'>8</A> <A href='/class2/1_1036/index9.html'>9</A> <A href='/class2/1_1036/index10.html'>10</A>

<A href='/class2/1_1036/index3.html'>></A>
<A href='/class2/1_1036/index500.html'>>></A>
   
</div>
    </div>综合以上2段代码可以看出来。获取到这个分页,首先要确定下分页的范围,这个范围要保证每个页面都有!
我们选取以<div class="page">开始,以</div>结束!

范围选取好了,要设置获取到当前页的下一页地址了,可以首先试着自动识别分页,如果自动识别分页获取不到,或者获取不全!这样可以考虑地址样式获取
通过代码比对,可以这样设置<SPAN class='current'>(*)</SPAN> <A href='[参数]'。这个参数就是下一页的地址了!这样就可以获取到分页了!




新人long新 发表于 2013-3-11 18:54:34

列表页的内容,又是搞不懂。

cx6226301 发表于 2013-4-20 02:20:53

帅气~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

qq2826843 发表于 2013-8-14 09:16:21

是挺不错的。按这个采集一下试一下!:lol

worldboyy 发表于 2013-11-28 20:50:46

路过呢哦,必须多个啊

onekey32 发表于 2014-3-7 05:48:53

QQ号为137178124的这个人号称专业采集,我购买shopex接口,一开始明明说好150包教会,发教程的,谁知道支付宝即时到帐,钱打过去就变卦了。后来不断的忽悠我让我再打钱过去,说400元买开源的包教会,我是说死也不敢再信了。他在火车头里面有好几个马甲,大家小心了,认准他的QQ就行。137178124
估计是行骗太多,混不下去了,在论坛里太多马甲。他的马甲ID有:xiaoyao2008(火车头论坛) ,locoy2020(火车头论坛),diandianchunchu(shopex论坛),金色的小麦芽(旺旺ID),淘宝店铺(http://shop105325046.taobao.com),

Cocacola 发表于 2014-3-25 21:52:31

吖的.这么大的字体有鬼用啊..只说了列表的分页.内容的呢~?~

hzgov 发表于 2014-8-27 13:52:06

没有经过培训,很多看不懂。

a3255759 发表于 2015-5-13 15:11:17

得脂肪肝的功夫大使馆

dt_legend 发表于 2015-8-17 09:53:53

我这人很懒,看帖基本上不回,但这次非常感谢楼主此贴!
页: [1]
查看完整版本: 列表页分页和内容分页采集原理