loganriggs

Pinned Repositories

sae-rm
Using SAE's to interpret Reward Models (RM)
Language:Jupyter Notebook22
sparse_coding
Language:Jupyter Notebook75
Optimal-Policies-Tend-To-Seek-Power
Code for the paper "Optimal Policies Tend To Seek Power"
Language:Mathematica01
alignment-research-dataset
A dataset of alignment research and code to reproduce it
Language:Python00
STFT_wifi_physical_fingerprint
Language:Python10
white-box
Tools for understanding how transformer predictions are built layer-by-layer
Language:Jupyter Notebook00
conditionalGaussionRecreation
Language:Python165
scrape-lesswrong
Language:Python10
dictionary_learning
Language:Python00
gpt-2
fork of nshepperd's fork of openai's gpt2
Language:Python00

loganriggs's Repositories

loganriggs/sae-circuits
Language:Jupyter Notebook
loganriggs/dictionary_learning
Language:Python
loganriggs/sae-rm
Using SAE's to interpret Reward Models (RM)
Language:Jupyter Notebook22
loganriggs/sparse_coding
Language:Jupyter Notebook75
loganriggs/neuron-interpretability
Language:Jupyter Notebook
loganriggs/resume
My latest Resume
Language:HTML
loganriggs/STFT_wifi_physical_fingerprint
Language:Python1
loganriggs/gpt-neox
An implementation of model parallel autoregressive transformers on GPUs, based on the DeepSpeed library.
loganriggs/white-box
Tools for understanding how transformer predictions are built layer-by-layer
Language:Jupyter Notebook
loganriggs/alignment-research-dataset
A dataset of alignment research and code to reproduce it
Language:Python
loganriggs/scrape-lesswrong
Language:Python1
loganriggs/Optimal-Policies-Tend-To-Seek-Power
Code for the paper "Optimal Policies Tend To Seek Power"
Language:Mathematica1
loganriggs/minimal_module
Language:Python2
loganriggs/papers
Language:HTML
loganriggs/gpt-2
fork of nshepperd's fork of openai's gpt2
Language:Python
loganriggs/conditionalGaussionRecreation
Language:Python165
loganriggs/zero_shot_learning
Language:Python
loganriggs/light_game
Language:C#