OpenLMLab/MOSS-RLHF

训练reward model的脚本

wangzhao88 opened this issue · 3 comments

您好:
请问可以支持对齐技术报告的reward model的训练模块吗?我想复现一下文中reward model的效果,谢谢。

感谢您对本项目的关注~因为奖励模型的训练涉及一些提高奖励模型表现的方法,所以我们暂时还不能对奖励模型进行开源。我们预计会在8-9月分的PART II部分放出后,对奖励模型的训练进行开源,感谢您的关注和认可~

这个issue是否还有后续?

您好,Reward model 训练部分还会开源吗?