在使用火车采集器抓取网页数据时,也会用到插件,火车采集器把采集到的数据传递给的外部程序,我们称之为插件,随后插件对数据进行处理,然后再把数据返回给采集器。 火车采集器V9支持PHP 和C#两种语言的插件编写,且V9支持插件的源码编辑。抓取网页数据工具火车采集器的插件可应用至采集结果的处理,HTTP请求,文件下载三处。大家可以在插件设置时从下拉框中选择插件管理器中已有的某个插件来实现具体的应用。 下面以58手机号码识别插件和百度翻译插件给大家讲解下用法。 58插件演示: (1)首先我们需要把插件58验证码V9.dll放入到采集器的Plugins目录中 (2)然后在“其他设置——插件——采集结果处理插件”中选择这个插件。 (3)最后我们需要建立个名字为“手机号码”的标签,采集到58手机号码的图片地址,这样运行的时候,采集器就会自动调用插件来将图片转义成数字文本的形式输出了。 翻译插件演示: (1)首先我们需要把插件百度翻译.dll放入到采集器的Plugins目录中 (2)然后在“其他设置——插件——采集结果处理插件”中选择这个插件。 (3)最后我们需要建立个名字为“翻译标签”的标签,将需要翻译的字段名字以固定字符串的形式写入。 再建立个名字为“翻译反向”的标签,将翻译语言以固定字符串的形式写入,如中文翻译成英文,代码:zh>en(zh表示中文,en表示英文,这类语言代码在使用前查询一下)。经过这样的操作,在运行的时候,火车采集器V9就会自动调用插件来翻译了。 在插件的帮助下我们可以使用火车采集器来完成更加复杂的任务,采集器中,除了使用已有的插件之外,我们也可以自行编写所需插件来使用,非技术人员可联系官方定制所需插件。
|