/PaddleOCR-json

OCR离线图片文字识别命令行windows程序,以JSON字符串形式输出结果,方便别的程序调用。提供各种语言API。由 PaddleOCR C++ 编译。

Primary LanguageC++Apache License 2.0Apache-2.0

稳定版:v1.2.1
测试版:v1.3.0_Alpha
v1.3 参数改动说明

PaddleOCR-json v1.3.0

这是一个基于 PaddleOCR v2.6 C++ 的开源离线OCR组件,可快速让你的程序拥有OCR能力。它通常作为一个子进程被上层程序调用,也可以作为一个单独的进程通过TCP调用。本项目提供了Python等语言的API,你可以无视技术细节,通过两行代码使用它。

  • 方便 :部署方便,解压即用,无需安装和配置环境,无需联网。发布方便,可嵌入程序包也可作为外挂组件。
  • 高速 :基于 PPOCR C++ 版引擎,识别效率显著高于Python版本PPOCR及其他一些由Python编写的OCR引擎。
  • 精准 :附带PPOCR-v3识别库,对非常规字形(手写、艺术字、小字、杂乱背景等)也具有不错的识别率。
  • 灵活 :可以以多种方式指定OCR任务,支持识别本地图片路径、剪贴板图片、Base64编码的图片。

关联项目:Umi-OCR 批量图片转文字工具

兼容性

  • 系统支持 Win10/11 x64 。Linux的支持正在筹备。

  • 不建议使用 Win7 ,识别引擎很可能无法运行。

  • CPU必须具有AVX指令集。常见的家用CPU一般都满足该条件。

    AVX 支持的产品系列 不支持
    Intel 酷睿Core,至强Xeon 凌动Atom,安腾Itanium,赛扬Celeron,奔腾Pentium
    AMD 推土机架构及之后的产品,如锐龙Ryzen、速龙Athlon、FX 等 K10架构及之前的产品
  • 如果需求在 Win7 或 无AVX的CPU上使用OCR,可看看隔壁 RapidOCR-json

准备工作

下载 PaddleOCR-json v1.3.0 并解压,即可。

简单试用

PaddleOCR-json.exe -image_path="test.jpg"

通过API调用

调用流程大体分为如下几步。不同API的具体接口可能有细微差别。

  • 启动:启动并初始化引擎子进程。
  • 工作:调用识图接口,获取返回值。目前支持识别 本地图片文件剪贴板中的图片Base64编码的图片
  • 关闭:结束引擎进程,释放内存资源。

API列表

资源目录下有更详细的使用说明及demo。

1. Python API

资源目录

使用示例
from PPOCR_api import GetOcrApi

# 初始化识别器对象,传入 PaddleOCR_json.exe 的路径
ocr = GetOcrApi("……\PaddleOCR-json.exe")

# 识别图片,传入图片路径
getObj = ocr.run(r'………\测试.png')
print(f'图片识别完毕,状态码:{getObj["code"]} 结果:\n{getObj["data"]}\n')

Python API 有丰富的附加模块:便于开发者调试观察的可视化模块;和Umi-OCR带来的文本块后处理(段落合并)技术。详细使用方法见 资源目录

2. Node.js API

资源目录

使用示例
npm install paddleocrjson
const OCR = require('paddleocrjson');

// const OCR = require('paddleocrjson/es5'); // ES5

const ocr = new OCR('PaddleOCR-json.exe', [/* '-port=9985', '-addr=loopback' */], {
    cwd: './PaddleOCR-json',
}, false);

ocr.flush({ image_path: 'path/to/test/img' })
    .then((data) => console.log(data));
    .then(() => ocr.terminate());

其他API

PowerShellJavaRust 等API尚未兼容 v1.3 测试版本。如有需要,请用 v1.2.1 版本。

更多语言API

欢迎补充!请参考 详细使用指南

返回值说明

通过API调用一次OCR,无论成功与否,都会返回一个字典。

字典中,根含两个元素:状态码code和内容data

状态码code为整数,每种状态码对应一种情况:

100 识别到文字
  • data内容为数组。数组每一项为字典,含三个元素:
    • text :文本内容,字符串。
    • box :文本包围盒,长度为4的数组,分别为左上角、右上角、右下角、左下角的[x,y]。整数。
    • score :识别置信度,浮点数。
  • 例:
      {'code':100,'data':[{'box':[[13,5],[161,5],[161,27],[13,27]],'score':0.9996442794799805,'text':'飞舞的因果交流'}]}
    
101 未识别到文字
  • data为字符串:No text found in image. Path:"图片路径"
  • 例:{'code':101,'data':'No text found in image. Path: "D:\\空白.png"'}
  • 这是正常现象,识别没有文字的空白图片时会出现这种结果。
200 图片路径不存在
  • data:Image path dose not exist. Path:"图片路径".
  • 例:{'code':200,'data':'Image path dose not exist. Path: "D:\\不存在.png"'}
  • 注意,在系统未开启utf-8支持(使用 Unicode UTF-8 提供全球语言支持")时,不能读入含emoji等特殊字符的路径(如😀.png)。但一般的中文及其他 Unicode 字符路径是没问题的,不受系统区域及默认编码影响。
201 图片路径string无法转换到wstring
  • data:Image path failed to convert to utf-16 wstring. Path: "图片路径".
  • 使用API时,理论上不会报这个错。
  • 开发API时,若传入字符串的编码不合法,有可能报这个错。
202 图片路径存在,但无法打开文件
  • data:Image open failed. Path: "图片路径".
  • 可能由系统权限等原因引起。
203 图片打开成功,但读取到的内容无法被opencv解码
  • data:Image decode failed. Path: "图片路径".
  • 注意,引擎不以文件后缀来区分各种图片,而是对存在的路径,均读入字节尝试解码。若传入的文件路径不是图片,或图片已损坏,则会报这个错。
  • 反之,将正常图片的后缀改为别的(如.png改成.jpg或.exe),也可以被正常识别。
210 剪贴板打开失败
  • data:Clipboard open failed.
  • 可能由别的程序正在占用剪贴板等原因引起。
211 剪贴板为空
  • data:Clipboard is empty.
212 剪贴板的格式不支持
  • data:Clipboard format is not valid.
  • 引擎只能识别剪贴板中的位图或文件。若不是这两种格式(如复制了一段文本),则会报这个错。
213 剪贴板获取内容句柄失败
  • data:Getting clipboard data handle failed.
  • 可能由别的程序正在占用剪贴板等原因引起。
214 剪贴板查询到的文件的数量不为1
  • data:Clipboard number of query files is not valid. Number: 文件数量
  • 只允许一次复制一个文件。一次复制多个文件再调用OCR会得到此报错。
215 剪贴板检索图形对象信息失败
  • data:Clipboard get bitmap object failed.
  • 剪贴板中是位图,但获取位图信息失败。可能由别的程序正在占用剪贴板等原因引起。
216 剪贴板获取位图数据失败
  • data:Getting clipboard bitmap bits failed.
  • 剪贴板中是位图,获取位图信息成功,但读入缓冲区失败。可能由别的程序正在占用剪贴板等原因引起。
217 剪贴板中位图的通道数不支持
  • data:Clipboard number of image channels is not valid. Number: 通道数
  • 引擎只允许读入通道为1(黑白)、3(RGB)、4(RGBA)的图片。位图通道数不是1、3或4,会报这个错。
300 base64字符串解析为string失败
  • data:Base64 decode failed.
  • 传入非法Base64字符串引起。(注意,传入Base64信息不应带有data:image/jpg;base64,前缀。)
301 base64字符串解析成功,但读取到的内容无法被opencv解码
  • data:Base64 data imdecode failed.
400 json对象 转字符串失败
  • data:Json dump failed.CODE_ERR_JSON_DUMP
  • 输入异常:传入非法json字符串,或者字符串含非utf-8编码字符导致无法解析引起。
401 json字符串 转对象失败
  • data:Json dump failed.CODE_ERR_JSON_DUMP
  • 输出异常:输出时OCR结果无法被编码为json字符串。
402 json对象 解析某个键时失败
  • data:Json parse key 键名 failed.
  • 比错误码400更精准的提示。如果发生异常,程序优先报402,无法处理才报400
403 未发现有效任务
  • data:No valid tasks.
  • 本次传入的指令中不含有效任务。

常用配置参数说明

键名称 默认值 值说明
config_path "" 可以指定不同语言的配置文件路径,识别多国语言。
cls false 启用cls方向分类,识别方向不是正朝上的图片。
use_angle_cls false 启用方向分类,必须与cls值相同。
enable_mkldnn true 启用CPU推理加速,关掉可以减少内存占用,但会降低速度。

config_path 需要配合多国语言扩展包使用。如果没有导入语言包,那么此项留空,默认使用自带的简中/英文通用识别库。

此外,更多参数详见 args.cpp 。不支持GPU相关、表格识别相关的参数。

👆当你需要修改或开发新API时欢迎参考。

👆当你需要修改项目源码时欢迎参考。

感谢

本项目中使用了 ReneNyffenegger/cpp-base64

“base64 encoding and decoding with c++”

本项目中使用了 nlohmann/json

“JSON for Modern C++”

感谢 PaddlePaddle/PaddleOCR ,没有它就没有本项目:

“Awesome multilingual OCR toolkits based on PaddlePaddle”

感谢各位为本项目开发API及贡献代码的朋友!

更新日志

版本号链接可前往对应备份分支。

v1.3.0 Alpha 2023.5.26

  • 重构代码,条理更清晰,易于移植。
  • 新功能:Base64传图片。
  • 新功能:套接字服务器模式。

v1.2.1 2022.9.28

  • 修复了一些BUG。
  • 解决非中文windows难以读取中文路径的问题,拥抱utf-8,彻底摆脱对gbk等区域性编码的依赖。
  • 新功能:直接读取并识别剪贴板内存中的图片。
  • 错误代码和提示更详细。

v1.2.0 2022.8.29

  • 修复了一些BUG。
  • 增强了面对不合法编码时的健壮性。
  • 默认开启mkldnn加速。
  • 新功能:json输入及热更新。

v1.2.0 Beta 2022.8.26

  • 重构整个工程,核心代码同步PaddleOCR 2.6。
  • 对v3版识别库的支持更好。
  • 新功能:启动参数。
  • 新功能:ascii转义。(感谢 @AutumnSun1996 的提议 issue #4

v1.1.1 2022.4.16

  • 修正了漏洞:当文本检测识别到区域但文本识别未在区域中检测到文字时,可能输出不相符的包围盒。

v1.1.0 2022.4.2

  • 修改了json输出格式,改为状态码+内容,便于调用方判断。

v1.0 2022.3.28