Yaodada12 opened this issue 9 months ago · 0 comments
蒸馏后的学生模型是直接在新数据集上微调,还是需要先在新数据集上微调教师模型,再用新数据集去蒸馏学生模型?