xrsrke/instructGOOSE

Implementation of Reinforcement Learning from Human Feedback (RLHF)

Jupyter NotebookMIT

Issues

Question about advantage function computation
#6 opened 2 years ago by pruksmhc
2
Add support custom reward function
#5 opened 2 years ago by xrsrke
0
Not working with cuda device.
#3 opened 2 years ago by hemangjoshi37a
4
This repo seems interesting.
#1 opened 2 years ago by hemangjoshi37a
10
forward() missing 1 required positional argument: 'attention_mask'
#2 opened 2 years ago by napawit44
6