hiroi-sora/Umi-OCR_plugins

tesseractOCR_umi_plugin排版解析方案一定要设为“不做处理”吗?

zhang569786645 opened this issue · 3 comments

我设置成其他的好像也可以使用呀,还有要使用这个插件是不是必须先把原来自带的插件删掉?有办法不删除原来的插件,在OCR里选择使用哪个插件吗?

  1. 可以同时导入多个插件,无需删除。修改当前使用的插件: 全局设置→文字识别→修改当前接口→点击【应用修改】
  2. 关于排版解析方案,是这样的:

TesseractOCR 内部有一个机器学习模型实现的排版解析方案,灵活性较高。 Umi-OCR内部有一些常规算法实现的排版解析方案,对复杂布局可能没那么灵活。

如果 不设为不做处理 ,那么 Umi 的排版结果会覆盖 TesseractOCR 的排版结果。

我在识别两列数字(两列文字中间有空格)的时候,想让这两列文字位于EXCEL的两列单元格里。如果排版设置成 不做处理 , 识别后两列数字全部被放入一个单元格了,这不是我想要的结果。目前我是使用排版为 单栏-保留缩进 复制粘贴进excel,会把识别文字列为一栏,再用excel里的分列功能把两列文字拆开,变成两列。 请问有更好的办法吗?

识别两列数字(两列文字中间有空格)

一个取巧的办法是每列数字单独截图,分别截取左右两张图,得到两列结果,粘贴进Excel里。

可以对比一下,这种方法和手动调用Excel的分列比,哪个更方便。