|
此文献给火车会员firyafir,以消除过去的误会。
火车的PHP插件通俗的说就是二次处理下火车采集器中标签所得到的文件,然后返回给对应的标签。
在火车采集器PHP插件编辑页面中已经有明确的说明- /*
- *火车采集器PHP插件处理标签内容示范文件
- *该文件内自动系统的三个参数$LabelArray $LabelCookie,$LabelUrl
- *对任意采集的标签都适用请对标签内容处理后直接将该数组serialize($LabelArray)输出,
- *采集器内部即可接收到该标签的内容,对比以前的接口规则,新规则可以实现标签之间的数据调用和处理
- *参数说明:
- *$LabelArray - 标签名及标签内容集合 结构如:Array('栏目id' => 2,'出处'=> 'www.xxx.com','作者'=>'火车采集器','内容'=>'<center><b>暴笑短信') ##
- *$LabelCookie - 对应采集中用到的Cookie值
- *$LabelUrl - 当前采集的页面的Url地址
- * 特别注意:如果是处理列表页,默认页,多页时会有以下两个标签
- $LabelArray['Html'] 网页的源代码,没有经过采集器处理的,直接下载后的数据.修改这里的数据,请将新值赋予$LabelArray['Html']
- $LabelArray['PageType'] 值可能为 List, Pages, Content 分别代表处理列表页,多页,默认页
- *以上语句建议不更改,以下为用户操作区域 该区域只限对数组值进行操作,不得有打印输出产生,不得直接增加或删除相应标签名
- */
复制代码 通常我们所需要用插件处理的都是一些简单的问题,对一些防盗链,伪造前页,传递COOKIE这些复杂操作本文不做介绍。详情参见snoopy,curl或者socket
通俗的说 在编写PHP插件的时候您可以将火车采集器设置的标签作为参数来进行处理,可以连接数据库,进行一些库操作等等
以我们平时经常采集的新闻为例,如果在设置规则的时候设置了标题和内容两个标签
那么在PHP插件中$LabelArray['标题'],$LabelArray['内容']就分别代表采集器处理后的数据,进行排除替换处理后的数据。如图
如果我在PHP插件中使用$LabelArray['标题']这个参数,当采集这个页面的时候$LabelArray['标题']的值就为“眼睑缺损的手术治疗”
如果您是一个PHP程序员完全没必要来读这篇文章,很简单 比如对标题这个表情的处理
$LabelArray['标题']=$LabelArray['标题'].'lypying';
这样 在测试页面标题的显示结果是"眼睑缺损的手术治疗lypying"这简单吧。
当然您要选择如题的设置
当然这只是一个字符串,您可以对这个字符串进行连接,截断等等一些处理。我目前做的科林系统的采集就通过PHP插件对返回的数据进行了排版
火车头提供里对四个部分的插件处理。这样使得采集更加灵活
未完待续 做饭去稍等 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?加入会员
x
|