open-compass/T-Eval

关于六项能力之间的关系

Closed this issue · 1 comments

hi, 非常感谢您的开源!

阅读论文后,我发现您将工具调用能力拆分成Plan、Reason、Retrieve、Understand、Instruct、Review六项子能力,且后一项子能力应依赖前一项子能力的输出。

但我在您开源的数据中发现每一项子能力是独立评测的,比如评测Reason时上文并没有Plan的相关内容,请问能否解释一下原因?

期待您的回复 🙏🏻.

hi,感谢对本工作的关注~
我们做这个工作的出发点就是能够解耦LLM调用工具时的不同纬度上的能力,进行分开评测,这和文章的**也是保持一致的。其次planning其实本身是一个相对high-level的东西,如果specify的特别具体那么与后面的reason, retrieve, understand就会产生重叠,所以它并没有作为上下文输入给reason,不然就可能造成比较大的leakage。