open-compass/T-Eval

请问plan和instruct的区别?

Closed this issue · 4 comments

您好!
按照我的理解,plan描述的是生成tool name的序列的能力,instruct是选择一个tool name的能力,然后迭代后者的能力,岂不是也能实现前者的能力,它们两者为啥都是必须的呢?另外我目前看过的一些论文里面,似乎没有见过同时出现plan和instruct所描绘的过程。

image

另外Figure 3的caption是不是需要改下,应该是score不是scale吧

首先plan和retrieve确实可能会有部分重合,但是他们考察的是不同方面,retrieve的衡量目标是LLM能不能根据当前的thought找到这一步要用的tool,而plan是用来衡量模型对于一整个task的拆分能力,如果plan做不好很多时候可能每一步的reasoning就无从谈起,以及我觉得你说的instruct其实指的是retrieval?
btw,我们check了一下figure3的caption,这里就是model scale,意思是指在同一个模型量级下,我们对表现最好的模型用下划线标出,不过还是很感谢你能够细心阅读我们的论文

感谢您的答复,因为我最近也survey了一些tool invocation的论文,我更多看到的是给了一个不涉及工具的plan,而不是一个直接把工具调用已经写进去的plan,所以如果按照t-eval的框架的话,似乎不太好去评估它们的plan能力了。不知道能不能进行些改进来兼顾到我说的这种情况呢?

另外,后面的model size不是和scale同一个概念吗,"T-eval scale"好像文中对这个概念没有定义吧
image

因为我们目前的评测没有引入主观评测(GPT打分)所以目前只能利用action_name去bind对应的plan item,后面我们会想想有没有什么别的方法可以规避这个问题~感谢你的建议

emm 昨天晚上看的时候不知道为啥看去了Table 1的caption...确实写错了 感谢指出~我们近期会更新掉这个typo

好的,加油哈~