ckkissane

United States

Pinned Repositories

attention-output-saes
Code to reproduce key results for "Interpreting Attention Layer Outputs with Sparse Autoencoders"
Language:HTML5 2 03
base-models-refuse
Code to reproduce key results accompanying "Base LLMs refuse too"
Language:Python3 1 01
crosscoder-model-diff-replication
Open source replication of Anthropic's Crosscoders for Model Diffing
Language:Python249
deep_learning_curriculum
Language model alignment-focused deep learning curriculum
Language:Jupyter Notebook4 0 01
rlhf-shakespeare
Shakespeare transformer fine-tuned to generate positive sentiment samples using RLHF
Language:Python10 1 00
sae-dataset-dependence
Language:Python7 1 00
sae-transfer
Code to reproduce key results accompanying "SAEs (usually) Transfer Between Base and Chat Models"
Language:Python9 1 02
sae_vis
Create feature-centric and prompt-centric visualizations for sparse autoencoders (like those from Anthropic's published research).
Language:HTML24
shakespeare-transformer
Decoder only transformer trained on the works of Shakespeare
Language:Python3 1 00
TransformerLens
Language:Jupyter Notebook0 0 00

ckkissane/numpy
The fundamental package for scientific computing with Python.