vicgalle/refined-dpo

Refined Direct Preference Optimization with Synthetic Data for Behavioral Alignment of LLMs

Jupyter NotebookMIT

Readme
0Issues
11Stargazers
2Watchers

Stargazers

vicgalle
Madrid
jvpoulos
Boston, MA
babybirdprd
mexicanamerican
BinFuPKU
Shanghai
babu111
Fiiicus
indiejoseph
Hong Kong
bowersjames
ivanvmoreno
Spain
JeffCarpenter
Canada

Contact site admin: Geeks.