找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 364|回复: 0

火车采集器V9版本实现ocr图片采集功能

[复制链接]
发表于 2019-9-10 12:27:06 | 显示全部楼层 |阅读模式
本帖最后由 北极有鱼 于 2019-9-10 13:10 编辑

用过7.6版本火车采集器的用户应该知道在该版本中有ocr图片识别功能可以直接使用,但是在V9版本中这个还算实用的功能却被去掉了。对于依然需要使用该功能的v9用户,现在可以使用本文中提到的locoy-ocr插件在V9版本中同样实现ocr图片识别功能,实现诸如手机号码等基础图像的文字识别效果

现将基于python开发的火车采集器图像识别插件免费分享给大家

识别效果
测试网址:http://www.qincai.net/random.png
目前基于自带的识别库只能识别相对规则的图片,如需提高识别率,需要自建ocr训练集。先看一下插件实现的效果

环境准备
该ocr识别插件基于python语言制作,识别功能依赖tesseract组件完成(7.6版本也是依赖此软件来实现ocr识别功能的),所以需要计算机中装有Python3环境和tesseract软件
  • 安装Python3环境及用到的库
    配置python到系统环境变量,在cmd窗口中输入python -V能看到版本号则配置成功,推荐直接安装anaconda集成python环境。使用pip install -r requirements.txt利用插件中的requirements文件一键安装依赖库
  • 安装tesseract4.0以上软件
    配置tesseract到系统环境变量,在cmd窗口中输入tesseract -v能看到版本号则配置成功,可参考教程Windows环境安装tesseract-ocr 4.00并配置环境变量
  • tesseract下载地址:

使用教程
可直接使用提供的测试规则测试
  • 导入插件到火车采集器
  • 插件识别的标签名为ocr,所以将需要识别的图片链接采集到该标签下,直接运行即可实现图片文字自动识别
  • 参数设置
    因不同图像的差异性较大,ocr识别率有限,所以为了更准确的进行图像识别,本插件可支持用户设置多个参数对待识别的图片进行预处理,支持的参数如下,一定要严格按参数列表中的示例添加参数,不需要的参数不要创建标签,否则会报错

支持的参数列表

插件下载
推荐从github下载最新版本使用,里面的ljobx文件为测试规则,可直接导入火车采集器v9及以上版本使用
详细说明参照:
火车采集器V9版本实现ocr图片识别功能
免费分享,大神勿喷!


如有相关操作问题或者建议,欢迎留言

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站  

A

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.2( 皖ICP备06000549 )

快速回复 返回顶部 返回列表