AstarLight/CPS-OCR-Engine

如果是中英文数字混合的文字,怎么处理数字和英文识别呢?

clnFind opened this issue · 16 comments

  • 想请教下楼主,如果是中英文数字混合的文字,怎么处理数字和英文识别呢?

自己增加数字和字母在后面,然后再生成数据,然后再训练模型。 使用的python3。
image

python gen_printed_char.py --out_dir ./dataset --font_dir ./chinese_fonts --width 30 --height 30 
# 生成少量的数据,看看有没有生产数据

@LinearPi 请教一下,英文单词之间的空格,如何训练?

这个是用来训练中文单个字的, 如果是英文的话 ,建议你使用英文的训练方式。

这个是用来训练中文单个字的, 如果是英文的话 ,建议你使用英文的训练方式。

请问我现在加了一些英文字母、数字还有符号,但是生成的图片有的旁边会多一个框,您有出现这种情况么
比如说这个 是引号 image
还有一些符号是有自己的特定的位置,比如说^正常在一个偏上面的位置,但是生成出来就会占据整个图
image

我还没有遇到需要处理这种情况, 有可能是字符集的问题,或者是编码的问题。

您说的字符集是指字体ttf么?可是一个字的其他图片看起来还是正常的,试了一下发现中文字也会出现这种情况,就是可能多一个框的边边...如果是编码问题那该统一成gb2312的编码么?

image

自己增加数字和字母在后面,然后再生成数据,然后再训练模型。 使用的python3。
image

python gen_printed_char.py --out_dir ./dataset --font_dir ./chinese_fonts --width 30 --height 30 
# 生成少量的数据,看看有没有生产数据

请问这一步是在哪个文件中继续添加字母呢?

image
我是添加在这个文件里面的

image
我是添加在这个文件里面的

好的,谢谢,我去试一下

image
我是添加在这个文件里面的

你好,我在第一次生成训练集时,文件夹里没有这个文档。 然后他默认的生成3754个字的训练集,但是我只需要几十个字的训练集。 这应该在chinese_labels里改成我想要的吗?还是在其他地方修改配置。谢谢了

我应该是自己添加的文件,时间有点就已经忘记了。在创建数据集的时候,注意代码里面的引用的文件的文件名。 @zq2323

我应该是自己添加的文件,时间有点就已经忘记了。在创建数据集的时候,注意代码里面的引用的文件的文件名。 @zq2323

嗯嗯,感谢

这个是用来训练中文单个字的, 如果是英文的话 ,建议你使用英文的训练方式。

请问我现在加了一些英文字母、数字还有符号,但是生成的图片有的旁边会多一个框,您有出现这种情况么
比如说这个 是引号 image
还有一些符号是有自己的特定的位置,比如说^正常在一个偏上面的位置,但是生成出来就会占据整个图
image

这个是用来训练中文单个字的, 如果是英文的话 ,建议你使用英文的训练方式。

请问我现在加了一些英文字母、数字还有符号,但是生成的图片有的旁边会多一个框,您有出现这种情况么
比如说这个 是引号 image
还有一些符号是有自己的特定的位置,比如说^正常在一个偏上面的位置,但是生成出来就会占据整个图
image

你好,我想问一下你这个标点符号的文本图片是如何生成的呢,因为我最近也想生成一批中英文以及特殊字符混合的单个字符图片,需要额外添加字体库ttf什么的吗,很急,盼复,感谢!

这个是用来训练中文单个字的, 如果是英文的话 ,建议你使用英文的训练方式。

请问我现在加了一些英文字母、数字还有符号,但是生成的图片有的旁边会多一个框,您有出现这种情况么
比如说这个 是引号
还有一些符号是有自己的特定的位置,比如说^正常在一个偏上面的位置,但是生成出来就会占据整个图

这个是用来训练中文单个字的, 如果是英文的话 ,建议你使用英文的训练方式。

请问我现在加了一些英文字母、数字还有符号,但是生成的图片有的旁边会多一个框,您有出现这种情况么
比如说这个 是引号
还有一些符号是有自己的特定的位置,比如说^正常在一个偏上面的位置,但是生成出来就会占据整个图

你好,我想问一下你这个标点符号的文本图片是如何生成的呢,因为我最近也想生成一批中英文以及特殊字符混合的单个字符图片,需要额外添加字体库ttf什么的吗,很急,盼复,感谢!

不需要额外加字体库了,具体增加的方法可以参照上面LinearPi同学的方法,在txt里面增加序号、英文字符以及特殊的符号,但是特殊的符号这块因为占据整个正方形而不是应该有的特定的位置我就放弃了

@zq2323 麻烦发一下你的源码,邮箱:3193998861@qq.com

为什么你们的目录和我不一样