dazhaxie0526 opened this issue 2 years ago · 0 comments
请问在指令微调时损失函数与预训练有什么区别吗?指令微调也是根据前文预测下一个token的概率吗?