这种只能通过问答对的方式，有没有办法MLM的方式学习知识体系。

Question

BShark-YB opened this issue 8 months ago · 1 comments

Answer 1 · 2024-07-21T13:56:57.000Z

这个问题我也考虑过，因为mask语言模型（mask LM）在预训练的时候只15%的masked token参与损失计算，利用率太低了，这个项目的本意是探索模型从问答对中学习知识的泛化能力，T5本身是encoder-decoder架构，刚好试了一下text-to-text的预训练方式。