|
软件里介绍的不全呀
*火车采集器外部编程接口处理标签内容示范文件
*该文件内自动系统的三个参数$LabelArray $LabelCookie,$LabelUrl
*对任意采集的标签都适用请对标签内容处理后直接将该数组serialize($LabelArray)输出,
*采集器内部即可接收到该标签的内容,对比以前的接口规则,新规则可以实现标签之间的数据调用和处理
*参数说明:
*$LabelArray - 标签名及标签内容集合 结构如:Array('栏目id' => 2,'出处'=> 'www.locoy.com','作者'=>'火车采集器','内容'=>'<center><b>暴笑短信') ##
*$LabelCookie - 对应采集中用到的Cookie值
*$LabelUrl - 当前采集的页面的Url地址
* 特别注意:如果是处理列表页,默认页,多页时会有以下两个标签
$LabelArray['Html'] 网页的源代码,没有经过采集器处理的,直接下载后的数据.修改这里的数据,请将新值赋予$LabelArray['Html']
$LabelArray['PageType'] 值可能为 List, Pages, Content 分别代表处理列表页,多页,默认页
* @Copyright Copyright (c) 2005-2010 http://www.locoy.com
* @Version LocoySpider 2010 or later
* @Licence Support On LocoySpider Standard and Enterprise Edition
*以上语句建议不更改,以下为用户操作区域 该区域只限对数组值进行操作,不得有打印输出产生,不得直接增加或删除相应标签名
采集到的网址,分页网址怎么处理,怎么设置不采,火车头是吧分页,标签内容都重新设置成html源码吗,我看到if($pagenum>2)
{
$return="<locoypages>";
for($i=2;$i<=$pagenum;$i++)
{
$url=str_replace(".html",'_'.$i.'.html',$LabelUrl);
$return.="<a href='".$url."'></a>";
}
$return.='</locoypages>';
$LabelArray['Html'].=$return,
当前采集的页面所有的系统变量都变成针对这个页面的,是吗?
<locoypages></locoypages>是火车头自己的代表网址的标签吗,是不是有许多系统的标签,里面代表不同的信息,有针对每个系统变量的使用的教程实例吗 |
|