liziniu/policy_optimization

Code for Paper (Policy Optimization in RLHF: The Impact of Out-of-preference Data)

Python

Readme
0Issues
24Stargazers
1Watcher

Stargazers

Alan-Qin
HKUST
BepfCp
Nanjing University
Chenruishuo
Nanjing University
chloefresh
emigmo
Tsinghua University
George-Chia
glorgao
jyhong836
University of Texas at Austin
l0he1g
中国
liziniu
The Chinese University of Hong Kong, Shenzhen
Olivia-fsm
Ecole Polytech Federal of Lausanne
shercklo
Nanjing University
Tanliandeshaonv
tianxusky
Nanjing University
TianyunYoung
China, Beijing
TrbingWY
wz139704646
Nanjing University
xiami2019
Fudan University&Sun Yat-Sen University
yqt
zbzhu99
SJTU｜Apex Lab
zldscr0
zyushun
zzq-bot
Nanjing University

Contact site admin: Geeks.