sunzeyeah/RLHF

后续会考虑RLHF平替方案的集成么

skykiseki opened this issue · 2 comments

比如RRHF啥的方法,其实RLHF成本还是挺高的。。。

RLHF全套在今天参考(chaoxi)学习了个七七八八,强!!!!感激

RLHF的计算资源要求确实比较高,可以考虑使用peft,或者是类似RRHF这样的离线pipeline的形式模拟PPO。但目前重心是在预训练和SFT,后面如果需要RLHF,可能会考虑PPO之外的方案,短期还不会

RLHF的计算资源要求确实比较高,可以考虑使用peft,或者是类似RRHF这样的离线pipeline的形式模拟PPO。但目前重心是在预训练和SFT,后面如果需要RLHF,可能会考虑PPO之外的方案,短期还不会

感谢大佬回答