OpenMOSS/MOSS

关于RLHF的问题

dongdongrj opened this issue · 0 comments

请问这些微调模型都是通过SFT微调得来的吗?关于RM和PPO阶段的微调,是没有用到呢?还是没有开源呢?
如果是没有用到RLHF,仅仅只是通过SFT就可以达到不错的效果,说明问答数据集是非常充分的。对于特定领域,
这可能不太可行。