THUDM/ChatGLM-Math

文章中似乎没有表述清楚SFT模型使用的数据集

Closed this issue · 2 comments

The SFT dataset encompasses many routine tasks and can be substituted with an open-source instruction finetuning dataset.

我的理解是SFT模型实际上是指令微调模型(ChatGLM3-32B),并没有针对数学数据集做监督微调吗?

另外,后面的RFT和DPO过程,指令是从相同的数据集中抽取的吗,还是做了划分?

  1. SFT数据集是指令微调数据集,没有对数学数据集做监督微调
  2. RFT的数学指令从与SFT数据集不重叠的数学指令数据集选取的,DPO则是从同一数据集中再次采样。可以理解为DPO数据是在经过RFT训练后仍然没有做对的题目。

感谢您指出论文写作不清晰的地方,我们会在接下来的更新版本中补全这些细节