后续会考虑RLHF平替方案的集成么
skykiseki opened this issue · 2 comments
skykiseki commented
比如RRHF啥的方法,其实RLHF成本还是挺高的。。。
RLHF全套在今天参考(chaoxi)学习了个七七八八,强!!!!感激
sunzeyeah commented
RLHF的计算资源要求确实比较高,可以考虑使用peft,或者是类似RRHF这样的离线pipeline的形式模拟PPO。但目前重心是在预训练和SFT,后面如果需要RLHF,可能会考虑PPO之外的方案,短期还不会
skykiseki commented
RLHF的计算资源要求确实比较高,可以考虑使用peft,或者是类似RRHF这样的离线pipeline的形式模拟PPO。但目前重心是在预训练和SFT,后面如果需要RLHF,可能会考虑PPO之外的方案,短期还不会
感谢大佬回答