对话生成模型的hits@1是怎么算的？

Question

对话生成模型的hits@1是怎么算的？

chikin-lau opened this issue 2 years ago · 5 comments

请教个问题，您的论文和personachat原论文(Personalizing Dialogue Agents: I have a dog, do you have pets too?)里，生成模型的评价指标里都包括了hits@1，这个指标一般不是用于检索模型的吗？在网上搜索了很多资料，还是不太理解，请问生成模型里这个自动指标是怎么计算出来的？

Answer 1 · 2022-04-28T07:33:09.000Z

@chikin-lau Hi 您好，感谢您对我们工作的关注。Hits@1 确实是一个检索的指标，给定对话历史，当模型要预测回复时，可以是直接自由生成（用 F1 衡量），也可以是对给定候选回复做排序（不论是以什么打分方式）。对于每个回复，PersonaChat数据集都提供了19个干扰样本组成候选集，Hits@1 就是指将正确样本排在这20个候选回复的首个而计算得出的指标。

Answer 2 · 2022-04-28T07:46:14.000Z

@SivilTaram 感谢回复，那请问您论文里的Hits@1计算是用的何种方式打分的呢？

Answer 3 · 2022-04-28T07:52:14.000Z

@chikin-lau 我们在language model上加了一个分类的head用于判断给定的对话历史和候选回复之间是否匹配，用这个匹配分数来进行排序的。

Answer 4 · 2022-04-28T08:19:37.000Z

@SivilTaram 具体指的是[PS]persona[SOS]history[SOS]candidate[CLS]，算[CLS]的scores？

Answer 5 · 2022-04-28T11:48:47.000Z

@chikin-lau 可以这么理解，具体的可以看论文中的说明