psunlpgroup/ReaLMistake

This repository includes a benchmark and code for the paper "Evaluating LLMs at Detecting Errors in LLM Responses".

PythonNOASSERTION

Readme
0Issues
25Stargazers
8Watchers

Watchers

drkostas
University of Tennessee, Knoxville
kzafeiroudi
@psunlpgroup
LFhase
Someplace
nkzhlee
Pennsylvana State University
rpassonneau
Penn State University
ryanzhumich
Penn State University
ryokamoi
Penn State University
serenayj
University of Colorado

Contact site admin: Geeks.