babelcloud/LLM-RGB

LLM Reasoning and Generation Benchmark. Evaluate LLMs in complex scenarios systematically.

TypeScriptMIT

Readme
4Issues
143Stargazers
6Watchers

Stargazers

Prev
Next

Contact site admin: Geeks.