大家好,有个T-Eval评测数据集的疑惑,希望各位帮忙解答一下,感谢。
Closed this issue · 2 comments
13416157913 commented
在评测数据集中一般都给定了工具列表给模型,但是在现实中用户是直接向模型提问题,并没有添加任何工具列表(而且大多数都是普通用户,并不知道这些操作),请问用这样的评测数据集去评测模型的agent能力有意义不?
zehuichen123 commented
但是现实中不也是要提供工具模型才能去解决用户提出的需要调用工具的问题吗hhh
13416157913 commented
工具模型
明白,感谢回答。