谁能说下插件中火车头系统的变量都有哪些,怎么使用
软件里介绍的不全呀*火车采集器外部编程接口处理标签内容示范文件
*该文件内自动系统的三个参数$LabelArray $LabelCookie,$LabelUrl
*对任意采集的标签都适用请对标签内容处理后直接将该数组serialize($LabelArray)输出,
*采集器内部即可接收到该标签的内容,对比以前的接口规则,新规则可以实现标签之间的数据调用和处理
*参数说明:
*$LabelArray -标签名及标签内容集合 结构如:Array('栏目id' => 2,'出处'=>'www.locoy.com','作者'=>'火车采集器','内容'=>'<center><b>暴笑短信')##
*$LabelCookie -对应采集中用到的Cookie值
*$LabelUrl -当前采集的页面的Url地址
* 特别注意:如果是处理列表页,默认页,多页时会有以下两个标签
$LabelArray['Html'] 网页的源代码,没有经过采集器处理的,直接下载后的数据.修改这里的数据,请将新值赋予$LabelArray['Html']
$LabelArray['PageType'] 值可能为 List, Pages, Content 分别代表处理列表页,多页,默认页
* @CopyrightCopyright (c) 2005-2010 http://www.locoy.com
* @Version LocoySpider 2010 or later
* @Licence Support On LocoySpider Standard and Enterprise Edition
*以上语句建议不更改,以下为用户操作区域该区域只限对数组值进行操作,不得有打印输出产生,不得直接增加或删除相应标签名
采集到的网址,分页网址怎么处理,怎么设置不采,火车头是吧分页,标签内容都重新设置成html源码吗,我看到if($pagenum>2)
{
$return="<locoypages>";
for($i=2;$i<=$pagenum;$i++)
{
$url=str_replace(".html",'_'.$i.'.html',$LabelUrl);
$return.="<a href='".$url."'></a>";
}
$return.='</locoypages>';
$LabelArray['Html'].=$return,
当前采集的页面所有的系统变量都变成针对这个页面的,是吗?
<locoypages></locoypages>是火车头自己的代表网址的标签吗,是不是有许多系统的标签,里面代表不同的信息,有针对每个系统变量的使用的教程实例吗 仔细想了下,是不是这样的火车有几个步奏
1.请求网址,获得网址的源代码$LabelArray['Html'],根据标签的规则获得各自的内容,
2.插件处理:路过使用了插件,调用插件进行对标签的处理,而要获取分页是留在第3步的,js的分页就需要对获取的源码$LabelArray['Html']进行添加些软件可以识别的网址代码,这样新的源代码就拥有了可识别的分页;
3.获取分页阶段:就会在新的源码获取,像上面的那个插件而分页规则应该是全部列出<locoypages>到</locoypages>把
页:
[1]