/TextRecognitionDataGenerator

一个生成crnn训练数据集的工具,主要针对简体中文。

Primary LanguagePythonMIT LicenseMIT

TextRecognitionDataGenerator TravisCI PyPI version codecov Documentation Status mattermost

介绍

一个生成crnn训练数据集的工具,主要针对数字、简体中文。(crnn模型训练可参考此项目crnn)

示例

数字

number

简体中文

chinese

特性

  1. 本项目主要继承至TextRecognitionDataGenerator
  2. 针对简体中文、中文数据集生成。
  3. 支持自定义字体.
  4. 支持自定义背景.
  5. 支持自定义语料.

必要条件

  • Python 3.7+(推荐3.7)

近期更新

2021-3-1: 初版上线,支持数字生成。

2021-3-2: 支持简体中文生成及自定义语料。

2021-3-24: 增加日期生成器、修复特殊字符报错问题。

2022-4-13: 修改生成数据的格式。

内容

安装

安装所需python包

pip install -r requirements.txt

使用

下面我们以如何创建一个数字数据集为例。

准备

  1. 字体文件

将所准备的所有字体文件放置在./trdg/fonts/num/中。

  1. 背景图片

将所准备的所有背景图片放置在./trdg/images/中。

  1. 自定义语料(可选,中文必选)

准备形如./trdg/dicts/text.txt文件,并替换改文件。

生成

执行main.py文件即可生成图片。 生成的图片位于./trdg/output/文件夹中。

联系

  1. 邮箱:jianjinlv@163.com
  2. QQ群:1081332609