techandy42/LLM_Reward_Model

Developing a LLM response ranking reward model using HFRL except it's GPT-3.5 instead of human.

Jupyter Notebook

Readme
0Issues
2Stargazers
1Watcher

Stargazers

huoliangyu
techandy42
Toronto, Ontario, Canada

Contact site admin: Geeks.