/Simple-Trl-Training

基于DPO算法微调语言大模型,简单好上手。

Primary LanguagePython

Watchers