SivilTaram/Persona-Dialogue-Generation

对话生成模型的hits@1是怎么算的?

chikin-lau opened this issue · 5 comments

请教个问题,您的论文和personachat原论文(Personalizing Dialogue Agents: I have a dog, do you have pets too?)里,生成模型的评价指标里都包括了hits@1,这个指标一般不是用于检索模型的吗?在网上搜索了很多资料,还是不太理解,请问生成模型里这个自动指标是怎么计算出来的?

@chikin-lau Hi 您好,感谢您对我们工作的关注。Hits@1 确实是一个检索的指标,给定对话历史,当模型要预测回复时,可以是直接自由生成(用 F1 衡量),也可以是对给定候选回复做排序(不论是以什么打分方式)。对于每个回复,PersonaChat数据集都提供了19个干扰样本组成候选集,Hits@1 就是指将正确样本排在这20个候选回复的首个而计算得出的指标。

@SivilTaram 感谢回复,那请问您论文里的Hits@1计算是用的何种方式打分的呢?

@chikin-lau 我们在language model上加了一个分类的head用于判断给定的对话历史 和 候选回复之间是否匹配,用这个匹配分数来进行排序的。

@SivilTaram 具体指的是[PS]persona[SOS]history[SOS]candidate[CLS],算[CLS]的scores?

@chikin-lau 可以这么理解,具体的可以看论文中的说明