RLHF,一个更轻更快更简单的实现.
原版代码:https://github.com/lansinuote/Simple_RLHF
运行环境:
torch==1.13.1+cu117
transformers==4.38.2
datasets==2.18.0
accelerate==0.28.0
peft==0.9.0
RLHF,一个更轻更快更简单的实现.
原版代码:https://github.com/lansinuote/Simple_RLHF
运行环境:
torch==1.13.1+cu117
transformers==4.38.2
datasets==2.18.0
accelerate==0.28.0
peft==0.9.0