冬至雨 发表于 2014-1-8 17:12:33

像这样的内容分页,就只能用PHP插件了!

http://www.china-heating.com/news/2014/20677.html

<div class='clear'></div><div style='margin:0 auto; width:660px; overflow:hidden; text-align:center;' class='adClass'><div class='ad22Style'><script type='text/javascript'>OT_ads('ot022');</script></div></div><div class='clear'></div><table align='center' cellpadding='0' cellspacing='0' class='pageNavBox list'><tr><td><div><span>上一页</span></div><div><span class='sel'>1</span></div><div><a href="javascript:ContentPageHref('',20677,20679-20677,'../../news/2014/20677_.html');" rel="nofollow">2</a></div><div><a href="javascript:ContentPageHref('',20677,20680-20677,'../../news/2014/20677_.html');" rel="nofollow">3</a></div><div><a href="javascript:ContentPageHref('',20677,20679-20677,'../../news/2014/20677_.html');" rel="nofollow">下一页</a></div></td></tr></table><div class='clear'></div></p></div>

这个内容分页:http://www.china-heating.com/news/2014/20677_2.html

我只能用免费版的采集出来前2页,第三页就没法采集了

303718 发表于 2014-1-8 22:00:45

用插件即可

冬至雨 发表于 2014-5-28 19:15:56

303718 发表于 2014-1-8 22:00 static/image/common/back.gif
用插件即可

用插件也不可以啊,我这边7.6的企业版,<?php
error_reporting(E_ERROR | E_WARNING | E_PARSE);
/*
*外部编程接口处理标签内容示范文件                                                                                                                                                                                                                       
*该文件内自动系统的三个参数$LabelArray $LabelCookie,$LabelUrl
*对任意采集的标签都适用请对标签内容处理后直接将该数组serialize($LabelArray)输出,
*采集器内部即可接收到该标签的内容,对比以前的接口规则,新规则可以实现标签之间的数据调用和处理                                                                                                               
*参数说明:                                                                                                                                                                                                                                                                                       
*$LabelArray    -标签名及标签内容集合 结构如:Array('栏目id' => 2,'出处'=>'新浪微博','内容'=>'<center><b>暴笑短信')##
*$LabelCookie   -对应采集中用到的Cookie值                                                       
*$LabelUrl      -当前采集的页面的Url地址
* 特别注意:如果是处理列表页,默认页,多页时会有以下两个标签
    $LabelArray['Html']       网页的源代码,没有经过采集器处理的,直接下载后的数据.修改这里的数据,请将新值赋予$LabelArray['Html']
    $LabelArray['PageType']   值可能为 List, Pages, Content 分别代表处理列表页,多页,默认页                                                                                                                                                               
*以上语句建议不更改,以下为用户操作区域该区域只限对数组值进行操作,不得有打印输出产生,不得直接增加或删除相应标签名
*/
if($LabelArray['PageType']=='Content')
{
        //preg_match_all("/,\d{5},\d{5}-\d{5},/",$LabelArray['Html'],$arr);
        //$str=count($arr);
        preg_match_all("/\d{1}\<\/a\>/",$LabelArray['Html'], $arr);
        $str=end($arr);
        $filename=rtrim($LabelUrl,'.html');
        $pagestr='<locoypage>';
        if($str==0){
                $pagestr.="<a href='$LabelUrl'>$str</a>";
        }else
{
        for ($i=1;$i<=$str;$i++)
       {
                if($i==1)
        {
                        $pagestr.="<a href='$LabelUrl'>$i</a>";
                        }else{
                $page=$filename.'_'.$i.'.html';
                $pagestr.="<a href='$page'>$i</a>";
        }
                }
}
        $pagestr.='</locoypage>';
    $LabelArray['Html'].=$pagestr;
        }
       
       
/*if($LabelArray['Html'])       
{
        if($LabelArray['PageType']=='Content')
        {
                $filename=rtrim(basename($LabelUrll),'.html');
                $dd='javascript:ContentPageHref';
                $pagestr='<locoypage>';
                for($i=2;$i<100;$i++)
               {
                       $page=$filename.'_'.$i.'.html';
                       if(strpos($LabelArray['Html'],$dd)!==false)
                       {
                                $pagestr.="<a href='$page'>$i</a>";
                               }
                       else{
                               break;
                               }                       
                       }
                }
        $pagestr.='</locoypage>';
    $LabelArray['Html'].=$pagestr;       
        }
       
        */
       
//#############以上为用户操作区域#############################################################################################################################
//#############以下语句必须保留,建议不更改###################################################################################################################
//ob_clean();
echo serialize($LabelArray);
?> 这个是采集源码,采集页面时http://www.china-heating.com/news/2014/21562.html 压根儿就不行,兄弟要不你帮忙测试下

290576138 发表于 2014-6-29 11:26:55

这个规则不需要用插件,上面清清楚楚的写着页码

企业版 发表于 2014-7-16 10:45:02

火车头直接处理的话难度很大,分页有页码,但是地址直接获取不到,
写一个php插件可以轻松搞定,但火车头采集器需要标准版以上



















『采集超市』www.locoymall.com 火车头第一企业采集平台,任意网站采集规则、插件、发布模块、接口定制!
页: [1]
查看完整版本: 像这样的内容分页,就只能用PHP插件了!