snu-mllab/DPPO

Official implementation of "Direct Preference-based Policy Optimization without Reward Modeling" (NeurIPS 2023)

PythonMIT

Issues

A Question about your code
#2 opened 5 months ago by CAI23sbP
2
How to make labels from human?
#1 opened 5 months ago by CAI23sbP
7