sam-paech

Independent AI tinkerer

Pinned Repositories

lm-evaluation-harness
A framework for few-shot evaluation of language models.
Language:Python7.5k 39 1.2k2k
EQ-Bench
A benchmark for emotional intelligence in large language models
Language:Python212 3 2219
antislop-sampler
Language:Python250 5 723
entropix-gsm8k-eval
Language:Jupyter Notebook1 1 00
FastEval
Fast & more realistic evaluation of chat language models. Includes leaderboard.
Language:Python00
gutenberg-dataset-scripts
Language:Jupyter Notebook0 1 00
lm-evaluation-harness
A framework for few-shot evaluation of language models.
Language:Python4 0 01
MMLU-Pro-IRT
The scripts for MMLU-Pro, using a smaller IRT-tuned dataset
Language:Python0 0 00
Ollama-MMLU-Pro-IRT
Ollama-MMLU-Pro fork, using a smaller IRT-tuned subset of MMLU-Pro
Language:Jupyter Notebook2 0 00
exllamav2
A fast inference library for running LLMs locally on modern consumer-class GPUs
Language:Python3.8k 35 489290

sam-paech's Repositories

sam-paech/antislop-sampler
Language:Python250 5 723
sam-paech/lm-evaluation-harness
A framework for few-shot evaluation of language models.
Language:Python4 0 01
sam-paech/Ollama-MMLU-Pro-IRT
Ollama-MMLU-Pro fork, using a smaller IRT-tuned subset of MMLU-Pro
Language:Jupyter Notebook2 0 00
sam-paech/entropix-gsm8k-eval
Language:Jupyter Notebook1 1 00
sam-paech/FastEval
Fast & more realistic evaluation of chat language models. Includes leaderboard.
Language:Python00
sam-paech/gutenberg-dataset-scripts
Language:Jupyter Notebook0 1 00
sam-paech/MMLU-Pro-IRT
The scripts for MMLU-Pro, using a smaller IRT-tuned dataset
Language:Python0 0 00