JoshuaPurtell/LRCBench

Evals meant to evaluate language models' ability to reason over long contexts.

PythonMIT

Readme
1Issue
8Stargazers
1Watcher

Issues

Add performance/context length graph, AUC
#1 opened a month ago
6

Contact site admin: Geeks.