tlc4418/llm_optimization

A repo for RLHF training and BoN over LLMs, with support for reward model ensembles.

PythonMIT

Readme
2Issues
23Stargazers
2Watchers

Watchers

drkostas
tlc4418
Cambridge, UK

Contact site admin: Geeks.