carlini/yet-another-applied-llm-benchmark

A benchmark to evaluate language models on questions I've previously asked them to solve.

PythonGPL-3.0

Readme
15Issues
949Stargazers
18Watchers

Stargazers

acherm
INSA Rennes, IRISA, Inria
aflah02
Max Planck Institute for Software Systems: MPI SWS
ahammadnafiz
andrewnc
getcartwheel.com
atg-abhishek
MAIEI | BCG | GSF
BedirT
FathomAI
bryanyzhu
Amazon AI
cern1710
United Kingdom
cheginit
Purdue University
DavidLee528
Duke University
davisrbr
deepakn97
University of California, Santa Barbara
dpaleka
Framartin
Parameter Lab
grahamannett
hammaad2002
Karachi, Pakistan
iamgroot42
Northeastern University
jiahaolu97
National University of Singapore <- MSRA <- Institute of Automation, Chinese Academy of Sciences
johnnynunez
Barcelona
karpathy
Stanford
lightaime
CAMEL-AI.org
lukaemon
WA
mahdiabdollahpour
Toronto
marathan24
Mayurji
Chennai
munozariasjm
proshian
ITMO University
rohan-paul
https://www.linkedin.com/in/rohan-paul-ai
SeungoneKim
Carnegie Mellon University
tachen-cs
Pittsburgh
ugorsahin
vinothpandian
@thomsonreuters
vishaal27
University of Tübingen | University of Cambridge
yibit
yibit
zhiq
Liminal Produkt
ZiyueWang25
Google

Prev
Next

Contact site admin: Geeks.