Lazydog OCR

OCR in browser use Tesseract.js

纯离线的浏览器 OCR 方案，核心使用 Tesseract.js。

没有数据安全问题，全程在浏览器中进行识别，不会上传到任何服务器。

支持识别 SIMD 并加载对应的 Tesseract-Core。

所有依赖均已下载到仓库，可以在任何无外网环境下部署使用。

支持拖拽、剪贴板粘贴、传统的文件选择器，默认自带 English、简体中文、正體中文三种识别模型。

（英文模式识别效果最好，中文对图片比较挑剔。）

安装

如果你只需要识别纯英文内容，可以使用部署在 CloudFlare Pages 上的在线版本。（由于CF Pages最大限制25MB, 所以只装载了英文的训练数据。）

额外的语言数据可以从这里下载，放到 assets/lang-data 中。

下载后编辑 index.html 的 #langList 部分，增加select中的option即可。