语言模型

Question

语言模型

Closed this issue 3 years ago · 2 comments

作者你好，我用的是自己的数据集，想问一下您的语言模型是用什么模型训练的？因为我的数据集还有少量英文，想训练自己的语言模型。还有您用的机器是什么配置呀

Answer 1 · 2021-05-24T09:23:14.000Z

作者你好，我用的是自己的数据集，想问一下您的语言模型是用什么模型训练的？因为我的数据集还有少量英文，想训练自己的语言模型。还有您用的机器是什么配置呀

这套代码是语音模型和语言模型做的联合训练，tranformer的encoder部分可以理解成语音模型，decoder部分可以理解成语言模型，我没有训练独立的语言模型。
英文数据集可以直接放进去训练就行啊，label英文单词直接用空格分隔，英文数据集要注意有连续的英文单词，你可以在字典内加一个标识符分割，举个例子：我love you label就是‘我 l o v e | y o u ’ 英文单词都是字符+空格分隔，连续的英文单词用|特殊字符做分隔，具体可以自己定义。解码出来根据|特殊字符去判断哪几个字符是一个单词。
我用的机器就是普通的titan 1080 12G双卡配置很低的。

Answer 2 · 2021-05-24T10:28:02.000Z

好的，谢谢您的回复！