/kaldi_hclg_chinese_tutorial

use 3 chinese senteces as training corpus to show how to build lm model and HCLG decoding graph

Primary LanguageShell

Kaldi HCLG 中文练习

概述

本项目以3句中文作为一个简单的语料示例,使用kaldi进行HCLG构建练习。

环境配置

  • kaldi: 可参考以下流程进行环境配置。此项目需调用srilm进行arpa生成,所以需额外安装srilm。

    git clone https://github.com/kaldi-asr/kaldi.git
    cd kaldi/tools/
    ./extras/check_dependencies.sh # please install required tools
    make -j8
    # download srilm from website: http://www.speech.sri.com/projects/srilm/download.html
    cp /path/to/your/srilm.tgz kaldi/tools/srilm.tgz
    cd kaldi/tools
    ./install_srilm.sh
    cd kaldi/src
    ./configure --shared
    make -j8
    
  • kaldi_hclg_chinese_tutorial

    • git clone https://github.com/juxiangyu/kaldi_hclg_chinese_tutorial.git
    • path.sh中的KALDI_ROOT配置为kaldi项目根目录

目录说明

此项目参考了kaldi/egs/wsj/s5示例的目录结构。

data/ 语料数据存储目录
|-- dict: lexicon及相关音素配置文件目录
|-- lm: 训练语料及预训练后的3gram文件
fst/ 存储生成的fst文件目录,调用./run.sh后产生
graph/ 存储可视化后的fst图文件目录,调用./run.sh后产生
path.sh: kaldi运行环境配置文件,需配置文件中KALDI_ROOT路径
run.sh: 运行脚本。配置好环境后,调用此脚本。

执行流程

  • 切到项目根目录 cd kaldi_hclg_chinese_tutorial
  • 配置path.sh中的KALDI_ROOT, 执行source path.sh
  • 执行./run.sh。在项目根目录下会生成fstgraph,所有产生的fst文件都保存在fst/目录下, graph/中是H,L,G WSFT可视化后的jpg文件
  • ./run.sh是一件化调用脚本,为更好的理解HCLG构建原理,建议参考下一部分HCLG构建过程,逐条命令执行。

HCLG构建过程

TBD

参考引用