关于论文中通用能力榜单几乎没有下降，部分反而有提升

Question

bestpredicts opened this issue 7 months ago · 1 comments

看论文里面增量时候语料只有code和math，并不包含通用语料配比。在一些通用榜单比如mmlu、TruthfulQA上面几乎没有下降，表示质疑？我这边试验的时候，冻结原始层增量预训练，比起原始模型在通用能力榜单还是出现了小幅度的下降，即使我的语料已经混入了一些通用的语料。