charent/ChatLM-mini-Chinese

这种只能通过问答对的方式,有没有办法MLM的方式学习知识体系。

BShark-YB opened this issue · 1 comments

这种只能通过问答对的方式,有没有办法MLM的方式学习知识体系。

这个问题我也考虑过,因为mask语言模型(mask LM)在预训练的时候只15%的masked token参与损失计算,利用率太低了,这个项目的本意是探索模型从问答对中学习知识的泛化能力,T5本身是encoder-decoder架构,刚好试了一下text-to-text的预训练方式。