基于Efficient Conformer的Aishell1中文语音识别项目,包括数据处理、模型搭建、训练、推理等。
- Lenovo XiaoXin Pro 14
- 硬件只有cpu
pip install -r requirement.txt
数据集:Aishell-1
数据集下载后放在data
目录下,目录结构如下:
data
└── aishell
├── transcript
└── wav
这里只包含ashell三个数据data\aishell\wav\S0002.tar.gz
, data\aishell\wav\S0003.tar.gz
, data\aishell\wav\S0004.tar.gz
。执行解压命令:
cd data/aishell/wav
tar -zxvf S0002.tar.gz
tar -zxvf S0003.tar.gz
tar -zxvf S0004.tar.gz
这里将S0004作为验证集,S0002和S0003作为训练集。
mkdir dev
mv train/S0004 dev
添加.gitignore
文件,忽略data/aishell/wav/train
和data/aishell/wav/dev
目录。
data/aishell/wav/train
data/aishell/wav/dev