ksm26/Reinforcement-Learning-from-Human-Feedback

Embark on the "Reinforcement Learning from Human Feedback" course and align Large Language Models (LLMs) with human values.

Jupyter Notebook

Stargazers