HumanCompatibleAI/interpreting-rewards

Experiments in applying interpretability techniques to learned reward functions.

Jupyter Notebook

Readme
0Issues
9Stargazers
5Watchers

Stargazers

ArezooAalipanah
jingranburangyongzhongwen
keeganmccallum
Making magic at Luma Labs
orpheuslummis
@CoincidenceNetwork
PavelCz
University of Southern California
pseudo-rnd-thoughts
reneelin1712
RossSong
Korea
tigerneil
Center for Safe AGI

Contact site admin: Geeks.