open-compass/T-Eval

大家好,有个T-Eval评测数据集的疑惑,希望各位帮忙解答一下,感谢。

Closed this issue · 2 comments

在评测数据集中一般都给定了工具列表给模型,但是在现实中用户是直接向模型提问题,并没有添加任何工具列表(而且大多数都是普通用户,并不知道这些操作),请问用这样的评测数据集去评测模型的agent能力有意义不?

但是现实中不也是要提供工具模型才能去解决用户提出的需要调用工具的问题吗hhh

工具模型

明白,感谢回答。