open-compass/T-Eval

关于review metrics

Closed this issue · 1 comments

想请教作者下面的问题,非常感谢您的回答:-)

  1. 本文的目的是分别评估工具使用的各方面能力,为什么会出現同时评估REASON, RETRIEVE, UNDERSTAND呢?(ref C.3)
  2. 在review的时候,“Given a thought ti and a tool response oi , the LLM is required to evaluate the tool response.” 这样判断的结果似乎不可靠?比如:
    thought不符合human query要求、tool response符合thought 要求的时候,会判定为Success,但其实not Success(因为没有solve human query)。
  1. 关于这个问题可以看下我们具体的评测数据,当返回是一个完整json的时候可以同时返回这三种能力
  2. 这里的review我们只关注模型对于API response本身的判断,仅考虑thought,action,observation这样一个最小元组的一致性