THUDM/AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)

PythonApache-2.0

Issues

[Feature] Add a LICENSE to the project
#141 opened 9 days ago by cjoverbay
2
Would llama3 wizardlm2 and other latest models be tested and published in leaderboard? 请求添加llama3 wizardlm等24年4-5月大模型的测试结果
#136 opened a month ago by dercaft
1
[Feature] 请问每个任务的分是怎么计算的呢？比如OS任务中得到的只是一个准确率，但是在论文中Table3每个任务对应的都是分数，这中间的映射过程我在文中并没有找到，可以提示一下吗
#135 opened a month ago by lonerFarea
1
Error with Command “python -m src.start_task -a”
#84 opened 5 months ago by ericzdzhang
5
请问如何使用本地的llama-2-hf模型进行测试呢，希望得到一些明确的指导！[Bug/Assistance]
#133 opened 2 months ago by 5456es
1
[Bug/Assistance]
#109 opened 5 months ago by ibingzhaoi
5
增加对Cluade3的评测
#126 opened 3 months ago by webdxq
2
请问支持使用openai的tool_call接口进行测试吗？
#132 opened 2 months ago by Maybewuss
1
Excellent Job! Well, no offense, it seems LLM-Bench rather than AgentBench in essence.
#130 opened 3 months ago by Konisberg
1
[Bug/Assistance] mind2web的unknown是怎么回事？
#129 opened 3 months ago by Tangent-90C
1
[Bug/Assistance] - Reproducing Results on Alfworld (HH) (vs. ReAct paper)
#127 opened 3 months ago by ai-nikolai
4
OS std 测试集结果
#128 opened 3 months ago by webdxq
1
Connection error
#124 opened 3 months ago by StupiddCupid
3
Card_Game这个任务跑不起来
#121 opened 4 months ago by yupeijei1997
3
我该怎么解决这个问题，跑mind2web，不太清楚该如何操作这个任务，能给出一些具体的指导吗，谢谢
#119 opened 4 months ago by Ethan-2004
17
Benchmark for mistral models
#122 opened 3 months ago by mingxuan-he
1
[Bug/Assistance] kg-std任务运行的runs.jsonl文件中问题在数据集中找不到
#116 opened 4 months ago by 13416157913
4
[Feature] Use for benchmarking agents like AutoGPT?
#118 opened 4 months ago by shruti222patel
1
[Assistance] Connection Error
#86 opened 6 months ago by wz1211
1
[Bug/Assistance] 测试kg-std任务时，输出文件中全部状态都是task limit reached
#115 opened 4 months ago by 13416157913
1
[Bug/Assistance] "result": {"answer": "1049 (42000): Unknown database 'Football Matches'", "type": "UPDATE", "error"
#111 opened 4 months ago by 13416157913
1
[Bug/Assistance] OS任务报错AttributeError: 'NpipeSocket' object has no attribute '_sock'
#112 opened 4 months ago by 13416157913
2
[Bug/Assistance] 测试os-std任务，提示Message: 0 samples remaining.
#113 opened 4 months ago by 13416157913
6
[Bug/Assistance] 为什么dbbench任务，在mysql数据库中指创建一个unkown数据库名，而且里面只有一张表名称也是unkown，是不是初始化有问题？
#114 opened 4 months ago by 13416157913
1
我想看一下agent和server的交互函数，可以指导一下嘛
#92 opened 4 months ago by hushuang909
2
cg和kg都遇到了Worker not responding
#97 opened 5 months ago by WarBean
1
[Bug/Assistance] os-std某一条数据报错Worker not responding
#105 opened 5 months ago by Xccanxin
1
ltp无法启动
#110 opened 5 months ago by Fu-Dayuan
1
[Assistance] Need some example running logs
#103 opened 5 months ago by ROCKYWWWW
2
About Webshop
#91 opened 5 months ago by dapengchen1234
1
游戏任务启动失败[Assistance]
#96 opened 5 months ago by smartliuhw
3
[Bug/Assistance] DBBench Unknown database
#106 opened 5 months ago by LittleWhite0208
1
agentbench 能跑训练集么？
#107 opened 5 months ago by Fu-Dayuan
1
dbbench-std: Task Output Seems Correct But MD5 Mismatches
#108 opened 5 months ago by wchen-github
1
生成package镜像选择时区之后卡住了，请问这个是怎么回事，重新生成也不好使
#104 opened 5 months ago by lidian1234
0
[Bug/Assistance] 怎么配置configs/agents/openai-chat.yaml
#102 opened 5 months ago by yananchen1989
1
请问一下为什么output文件夹里没有overall.json?
#101 opened 5 months ago by tml2002
0
请问一下为什么output文件夹里没有overall.json?
#100 opened 5 months ago by tml2002
0
[Bug/Assistance]
#99 opened 5 months ago by tml2002
0
[Bug/Assistance]
#98 opened 5 months ago by tml2002
0
可否不用docker配置环境
#93 opened 5 months ago by smartliuhw
2
cg任务没有一条执行成功而且task server没有收到任何信息
#87 opened 6 months ago by Jianzhao-Huang
1
KBQA 任务数据集信息确认
#88 opened 6 months ago by WuXuan374
0
[Bug/Assistance] DBbench任务评测结果与leaderboard不一致
#89 opened 6 months ago by SummerXIATIAN
1
How to test in self customed data?
#83 opened 6 months ago by Reason-Wang
1
您好，想问下测试中所有的大模型都是如{role：user/assistant，content：}，这种格式发送的么
#82 opened 6 months ago by pfx546746447
3
[Bug/Assistance] The option link fails to jump
#85 opened 6 months ago by zhimin-z
0
Separate server for task and model
#81 opened 6 months ago by Reason-Wang
2
[Assistance] 如何获得每个task的得分？
#80 opened 6 months ago by Jiaqi0109
1
How to calculate the overall score?
#79 opened 7 months ago by zhimin-z
1