redstar 是开源透明的 LLM 评测工具
git clone https://github.com/wangyuxinwhy/redstar.git
pip install .
cd scripts
python eval.py --help
python eval.py run --model azure_gpt_3_5 --task-name gsm8k_zero_shot
python eval.py list
python eval.py --model azure_gpt_3_5 --task-filter '"few_shot" in task.tags'