lypying系列教程九火车插件实例教程写给火车会员firyafir

lypying · 发表于 2011-2-27 18:43:05

此文献给火车会员firyafir，以消除过去的误会。
火车的PHP插件通俗的说就是二次处理下火车采集器中标签所得到的文件，然后返回给对应的标签。
在火车采集器PHP插件编辑页面中已经有明确的说明

/*
*火车采集器PHP插件处理标签内容示范文件
*该文件内自动系统的三个参数$LabelArray $LabelCookie,$LabelUrl
*对任意采集的标签都适用请对标签内容处理后直接将该数组serialize($LabelArray)输出，
*采集器内部即可接收到该标签的内容，对比以前的接口规则，新规则可以实现标签之间的数据调用和处理
*参数说明：
*$LabelArray - 标签名及标签内容集合结构如：Array('栏目id' => 2,'出处'=> 'www.xxx.com','作者'=>'火车采集器','内容'=>'<center><b>暴笑短信') ##
*$LabelCookie - 对应采集中用到的Cookie值
*$LabelUrl - 当前采集的页面的Url地址
* 特别注意:如果是处理列表页,默认页,多页时会有以下两个标签
$LabelArray['Html'] 网页的源代码,没有经过采集器处理的,直接下载后的数据.修改这里的数据,请将新值赋予$LabelArray['Html']
$LabelArray['PageType'] 值可能为 List, Pages, Content 分别代表处理列表页,多页,默认页
*以上语句建议不更改,以下为用户操作区域该区域只限对数组值进行操作，不得有打印输出产生，不得直接增加或删除相应标签名
*/

复制代码

通常我们所需要用插件处理的都是一些简单的问题，对一些防盗链，伪造前页，传递COOKIE这些复杂操作本文不做介绍。详情参见snoopy,curl或者socket
通俗的说在编写PHP插件的时候您可以将火车采集器设置的标签作为参数来进行处理，可以连接数据库，进行一些库操作等等
以我们平时经常采集的新闻为例，如果在设置规则的时候设置了标题和内容两个标签
那么在PHP插件中$LabelArray['标题']，$LabelArray['内容']就分别代表采集器处理后的数据，进行排除替换处理后的数据。如图

如果我在PHP插件中使用$LabelArray['标题']这个参数，当采集这个页面的时候$LabelArray['标题']的值就为“眼睑缺损的手术治疗”

如果您是一个PHP程序员完全没必要来读这篇文章，很简单比如对标题这个表情的处理
$LabelArray['标题']=$LabelArray['标题'].'lypying';
这样在测试页面标题的显示结果是"眼睑缺损的手术治疗lypying"这简单吧。
当然您要选择如题的设置

当然这只是一个字符串，您可以对这个字符串进行连接，截断等等一些处理。我目前做的科林系统的采集就通过PHP插件对返回的数据进行了排版
火车头提供里对四个部分的插件处理。这样使得采集更加灵活

未完待续做饭去稍等

okok7845 · 发表于 2011-2-27 23:41:36

传说中的沙发
不知免费是不是，四个插件，都可以用？

进货价 · 发表于 2011-2-28 14:21:18

我看，看，我来学习了

ldlwy · 发表于 2011-3-6 11:42:36

好好学习一下好好学习一下好好学习一下

ldlwy · 发表于 2011-3-6 11:44:12

好好学习一下好好学习一下好好学习一下好好学习一下

guangyin · 发表于 2011-3-14 00:04:12

免费版火车采集器在测试的时候可以用插件但是运行任务的时候插件就不起作用了

415439444 · 发表于 2011-3-27 13:33:09

顶！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！

tekaie · 发表于 2011-4-15 17:04:05

xiaokeng · 发表于 2011-4-16 22:11:32

回帖支持，顶你

xiejia120 · 发表于 2011-4-19 09:29:01

看看什么情况先，有这么神奇吗

帐号		自动登录	找回密码
密码			加入会员

lypying系列教程九火车插件实例教程写给火车会员firyafir

本帖子中包含更多资源

浏览过的版块