BShark-YB opened this issue 6 months ago · 1 comments
这个问题我也考虑过,因为mask语言模型(mask LM)在预训练的时候只15%的masked token参与损失计算,利用率太低了,这个项目的本意是探索模型从问答对中学习知识的泛化能力,T5本身是encoder-decoder架构,刚好试了一下text-to-text的预训练方式。