sail-sg/Cheating-LLM-Benchmarks

[SafeGenAi @ NeurIPS 2024] Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates

Jupyter NotebookMIT