OpenLMLab/MOSS-RLHF

用于PPO训练的数据结构

Closed this issue · 2 comments

这里用于PPO训练的数据结构是什么样的,需要怎么准备

您好,我们readme还没更新,会在模型放出后更新(约1天)

我们已经公布数据结构格式样例