lypying系列教程九火车插件实例教程写给火车会员firyafir
此文献给火车会员firyafir,以消除过去的误会。火车的PHP插件通俗的说就是二次处理下火车采集器中标签所得到的文件,然后返回给对应的标签。
在火车采集器PHP插件编辑页面中已经有明确的说明/*
*火车采集器PHP插件处理标签内容示范文件
*该文件内自动系统的三个参数$LabelArray $LabelCookie,$LabelUrl
*对任意采集的标签都适用请对标签内容处理后直接将该数组serialize($LabelArray)输出,
*采集器内部即可接收到该标签的内容,对比以前的接口规则,新规则可以实现标签之间的数据调用和处理
*参数说明:
*$LabelArray -标签名及标签内容集合 结构如:Array('栏目id' => 2,'出处'=>'www.xxx.com','作者'=>'火车采集器','内容'=>'<center><b>暴笑短信')##
*$LabelCookie -对应采集中用到的Cookie值
*$LabelUrl -当前采集的页面的Url地址
* 特别注意:如果是处理列表页,默认页,多页时会有以下两个标签
$LabelArray['Html'] 网页的源代码,没有经过采集器处理的,直接下载后的数据.修改这里的数据,请将新值赋予$LabelArray['Html']
$LabelArray['PageType'] 值可能为 List, Pages, Content 分别代表处理列表页,多页,默认页
*以上语句建议不更改,以下为用户操作区域该区域只限对数组值进行操作,不得有打印输出产生,不得直接增加或删除相应标签名
*/通常我们所需要用插件处理的都是一些简单的问题,对一些防盗链,伪造前页,传递COOKIE这些复杂操作本文不做介绍。详情参见snoopy,curl或者socket
通俗的说 在编写PHP插件的时候您可以将火车采集器设置的标签作为参数来进行处理,可以连接数据库,进行一些库操作等等
以我们平时经常采集的新闻为例,如果在设置规则的时候设置了标题和内容两个标签
那么在PHP插件中$LabelArray['标题'],$LabelArray['内容']就分别代表采集器处理后的数据,进行排除替换处理后的数据。如图
如果我在PHP插件中使用$LabelArray['标题']这个参数,当采集这个页面的时候$LabelArray['标题']的值就为“眼睑缺损的手术治疗”
如果您是一个PHP程序员完全没必要来读这篇文章,很简单 比如对标题这个表情的处理
$LabelArray['标题']=$LabelArray['标题'].'lypying';
这样 在测试页面标题的显示结果是"眼睑缺损的手术治疗lypying"这简单吧。
当然您要选择如题的设置
当然这只是一个字符串,您可以对这个字符串进行连接,截断等等一些处理。我目前做的科林系统的采集就通过PHP插件对返回的数据进行了排版
火车头提供里对四个部分的插件处理。这样使得采集更加灵活
未完待续 做饭去稍等 {:4_180:}传说中的沙发
不知免费是不是,四个插件,都可以用? 我看,看,我来学习了 好好学习一下 好好学习一下 好好学习一下 好好学习一下好好学习一下好好学习一下好好学习一下 免费版火车采集器 在测试的时候可以用插件 但是运行任务的时候插件就不起作用了 顶!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! {:4_180:}{:4_197:} {:4_196:}回帖支持,顶你 看看什么情况先,有这么神奇吗
页:
[1]
2