hiroi-sora/Umi-OCR_v2

测试:1.3.1和2.0.0的简体中文模型识别English无间隙

Closed this issue · 1 comments

想t试试大佬的新玩意儿,就测了一下
1.English模型1.3.1和2.0.0都无法识别中文(属于正常的哈哈哈哈)
2.中文模型下1.3.1可以识别英文且单词间有空隙 2.0.0可以识别英文但是连起来的
Snipaste_2023-11-29_00-26-18
Snipaste_2023-11-29_00-26-33
Snipaste_2023-11-29_00-27-35
Snipaste_2023-11-29_00-27-48

这个问题可以解决吗 确实新版比旧版UI好太多了 就是这个语言模型切换比较麻烦,比较常用1.3.1的中文识别既可以识别英文又可以识别中文(懒得一个个打字哈哈哈哈哈)但是新版UI确实好看真的很难取舍T.T
还有那个增加语言模型的进阶找了好几个朋友都失败了(已经很牛了除了泰语和阿拉伯语基本上其他的都能识别)

哦哦哦!感谢你的测试。

实际上,v1.3和v2的Paddle中文模型库是同一个,理论上准确度不会有差别。但是经过测试,发现二者确实存在差异。

我再次分析了两版代码,认为很可能是图片数据在程序内部的编码存在差别,进而导致了结果不同。

你可以进行以下步骤来修改内部编码:

  1. 用记事本打开 UmiOCR-data\py_src\image_controller\image_provider.py
  2. 找到第98行:
        image.save(buffer, "JPEG")  # 将 QImage 保存为字节数组
  1. JPEG 改为 PNG
        image.save(buffer, "PNG")  # 将 QImage 保存为字节数组
  1. 保存、关闭文件。

通过以上步骤,似乎可以减少截图OCR时空格缺失问题发生的机率。你可以试试。