open-compass/T-Eval

[ACL2024] T-Eval: Evaluating Tool Utilization Capability of Large Language Models Step by Step

PythonApache-2.0

Issues

测试结果不完整
#52 opened 9 days ago by Mrak6192
2
Can not eval when set batch_size>1
#48 opened a month ago by dkqkxx
2
When do you want to support internlm2
#43 opened 4 days ago by seanxuu
1
请问能否提供一份完全对齐openai输入格式的测试数据
#49 opened a month ago by Watebear
2
Llama2 7b chat 模型，输入长度超过 4096
#44 opened 2 months ago by Watebear
1
Review测评指标失真，Qwen被严重低估了
#53 opened 5 days ago by fengzhu1
1
对数据集case数的疑问
#50 opened a month ago by AmberXu98
2
是否支持qwen1.5，复现结果差距较大
#51 opened a month ago by Little-girl-1992
0
Questions about T-Eval
#45 opened 2 months ago by Cppowboy
0
How to use multi-gpu to test?
#42 opened 2 months ago by seanxuu
0
qwen14B测试python test.py 报错
#40 opened 2 months ago by chococatsrin
0
qwen1.5 tokenizer错误
#39 opened 2 months ago by chococatsrin
0
qwen-14b评测结果疑问
#38 opened 2 months ago by Fenglly
0
API model
#34 opened 2 months ago by Fenglly
3
Evaluate Claude 3
#37 opened 2 months ago by stalkermustang
0
关于plan_json_v1_zh.json数据文件答案问题
#36 opened 2 months ago by 13416157913
0
关于plan_json_v1_zh.json数据文件答案问题
#35 opened 2 months ago by 13416157913
0
API model ERROR
#31 opened 2 months ago by HC-Guo
3
【BUG】RuntimeError: The size of tensor a (8192) must match the size of tensor b (8193) at non-singleton dimension 3
#30 opened 3 months ago by Ayooooo
3
BUG: stop_words
#33 opened 2 months ago by ZHUANGMINGXI
5
BUG: stop_words
#32 opened 2 months ago by ZHUANGMINGXI
0
大家好，有个T-Eval评测数据集的疑惑，希望各位帮忙解答一下，感谢。
#29 opened 3 months ago by 13416157913
2
BUG
#25 opened 3 months ago by nyBball
13
代码bug
#28 opened 3 months ago by xjwhy
1
Tool Set的问题
#27 opened 3 months ago by yitianlian
5
有关数据开源的问题
#26 opened 3 months ago by pengming617
2
cannot import name 'HFTransformerChat' from 'lagent.llms.huggingface
#24 opened 3 months ago by xjwhy
2
论文结果无法复现
#23 opened 3 months ago by nyBball
1
请问bench里面有关于测试大语言模型翻译能力的吗？具体是哪一项
#16 opened 3 months ago by White-Friday
1
您好，请问中文数据集测试一轮大概花多长时间？
#18 opened 3 months ago by 13416157913
1
请问plan和instruct的区别？
#17 opened 3 months ago by milk-bottle-liyu
4
关于review metrics
#6 opened 3 months ago by DryPilgrim
1
关于dataset statistics & tool generation
#5 opened 3 months ago by DryPilgrim
1
关于六项能力之间的关系
#3 opened 3 months ago by Emperorizzis
1
如何根据测试结果文件确定论文table1中的各项指标？是f1 score吗
#7 opened 3 months ago by DryPilgrim
1
对评测速度和结果的疑问
#21 opened 4 months ago by klykq111
4
T-Eval加入open-compass框架
#20 opened 4 months ago by merlinarer
1
vllm兼容性问题
#11 opened 4 months ago by Double-bear
9
QWen测试message格式问题
#14 opened 4 months ago by gewenbin0992
1
模型推理格式相关提问
#4 opened 4 months ago by Double-bear
2
关于test_num
#2 opened 4 months ago by DryPilgrim
2
How to submit model results to T-Eval?
#1 opened 5 months ago by magicsongyang
3