火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4098|回复: 1

谁能说下插件中火车头系统的变量都有哪些,怎么使用

[复制链接]
发表于 2010-11-15 11:50:52 | 显示全部楼层 |阅读模式
软件里介绍的不全呀

*火车采集器外部编程接口处理标签内容示范文件                                                                                                                                                                                                                       
*该文件内自动系统的三个参数$LabelArray $LabelCookie,$LabelUrl
*对任意采集的标签都适用请对标签内容处理后直接将该数组serialize($LabelArray)输出,
*采集器内部即可接收到该标签的内容,对比以前的接口规则,新规则可以实现标签之间的数据调用和处理                                                                                                               
*参数说明:                                                                                                                                                                                                                                                                                       
  *$LabelArray    -  标签名及标签内容集合 结构如:Array('栏目id' => 2,'出处'=>  'www.locoy.com','作者'=>'火车采集器','内容'=>'<center><b>暴笑短信')  ##
  *$LabelCookie   -  对应采集中用到的Cookie值                                                       
  *$LabelUrl      -  当前采集的页面的Url地址
  * 特别注意:如果是处理列表页,默认页,多页时会有以下两个标签
    $LabelArray['Html']       网页的源代码,没有经过采集器处理的,直接下载后的数据.修改这里的数据,请将新值赋予$LabelArray['Html']
    $LabelArray['PageType']   值可能为 List, Pages, Content 分别代表处理列表页,多页,默认页
* @Copyright  Copyright (c) 2005-2010 http://www.locoy.com               
* @Version    LocoySpider 2010 or later                                                               
* @Licence    Support On LocoySpider Standard and Enterprise Edition                                                                                                                                                               
*以上语句建议不更改,以下为用户操作区域  该区域只限对数组值进行操作,不得有打印输出产生,不得直接增加或删除相应标签名


采集到的网址,分页网址怎么处理,怎么设置不采,火车头是吧分页,标签内容都重新设置成html源码吗,我看到if($pagenum>2)
                {
                        $return="<locoypages>";
                        for($i=2;$i<=$pagenum;$i++)
                        {
                                $url=str_replace(".html",'_'.$i.'.html',$LabelUrl);
                                $return.="<a href='".$url."'></a>";
                        }
                        $return.='</locoypages>';
                        $LabelArray['Html'].=$return,

当前采集的页面所有的系统变量都变成针对这个页面的,是吗?
<locoypages></locoypages>是火车头自己的代表网址的标签吗,是不是有许多系统的标签,里面代表不同的信息,有针对每个系统变量的使用的教程实例吗
 楼主| 发表于 2010-11-15 18:30:37 | 显示全部楼层
仔细想了下,是不是这样的火车有几个步奏

1.请求网址,获得网址的源代码$LabelArray['Html']  ,根据标签的规则获得各自的内容,

2.插件处理:路过使用了插件,调用插件进行对标签的处理,而要获取分页是留在第3步的,js的分页就需要对获取的源码$LabelArray['Html']进行添加些软件可以识别的网址代码,这样新的源代码就拥有了可识别的分页;

3.获取分页阶段:就会在新的源码获取,像上面的那个插件而分页规则应该是全部列出<locoypages>  到</locoypages>把
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-19 04:37

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表