kuangcaomvp/speech-recognize

语言模型

Closed this issue · 2 comments

作者你好,我用的是自己的数据集,想问一下您的语言模型是用什么模型训练的?因为我的数据集还有少量英文,想训练自己的语言模型。还有您用的机器是什么配置呀

作者你好,我用的是自己的数据集,想问一下您的语言模型是用什么模型训练的?因为我的数据集还有少量英文,想训练自己的语言模型。还有您用的机器是什么配置呀

这套代码是语音模型和语言模型做的联合训练,tranformer的encoder部分可以理解成语音模型,decoder部分可以理解成语言模型,我没有训练独立的语言模型。
英文数据集可以直接放进去训练就行啊,label英文单词直接用空格分隔,英文数据集要注意有连续的英文单词,你可以在字典内加一个标识符分割,举个例子:我love you label就是‘我 l o v e | y o u ’ 英文单词都是字符+空格分隔 ,连续的英文单词用|特殊字符做分隔 ,具体可以自己定义。解码出来根据|特殊字符去判断哪几个字符是一个单词。
我用的机器就是普通的titan 1080 12G双卡 配置很低的。

好的,谢谢您的回复!