TextRecognitionDataGenerator
介绍
一个生成crnn训练数据集的工具,主要针对数字、简体中文。(crnn模型训练可参考此项目crnn)
示例
数字
简体中文
特性
- 本项目主要继承至TextRecognitionDataGenerator 。
- 针对简体中文、中文数据集生成。
- 支持自定义字体.
- 支持自定义背景.
- 支持自定义语料.
必要条件
- Python 3.7+(推荐3.7)
近期更新
2021-3-1
: 初版上线,支持数字生成。
2021-3-2
: 支持简体中文生成及自定义语料。
2021-3-24
: 增加日期生成器、修复特殊字符报错问题。
2022-4-13
: 修改生成数据的格式。
内容
安装
安装所需python包
pip install -r requirements.txt
使用
下面我们以如何创建一个数字数据集为例。
准备
- 字体文件
将所准备的所有字体文件放置在./trdg/fonts/num/中。
- 背景图片
将所准备的所有背景图片放置在./trdg/images/中。
- 自定义语料(可选,中文必选)
准备形如./trdg/dicts/text.txt文件,并替换改文件。
生成
执行main.py文件即可生成图片。 生成的图片位于./trdg/output/文件夹中。
联系
- 邮箱:jianjinlv@163.com
- QQ群:1081332609