thu-coai/CDial-GPT

关于计算评价指标

huanghonggit opened this issue · 4 comments

请问已经生成STC_result.txt,想生成像Readme 评价指标表格中的 PPL | BLEU-2 | BLEU-4 | Dist-1 | Dist-2 | Greedy Matching | Embedding Average 这些值,请问你们是怎么计算的?

您看下历史的issue, 这些指标的计算方式之前有人问过#53

您好,请问在评测指标中(infer.py)中的超参数,您设置的max_history是多少,我在评测中,max_history是30,top_p是0,temperate是1,导致bleu2是34.多,bleu4是17点多,所以想请问一下您设置的max_history是多少,以及还想确认一下其他的参数,看看是不是参数的问题,测试集采用的是stc_test.json。

您好,请问在评测指标中(infer.py)中的超参数,您设置的max_history是多少,我在评测中,max_history是30,top_p是0,temperate是1,导致bleu2是34.多,bleu4是17点多,所以想请问一下您设置的max_history是多少,以及还想确认一下其他的参数,看看是不是参数的问题,测试集采用的是stc_test.json。

论文里有报呀,用的STC只有pair级别数据, 所以max_history不影响结果, top p 0.9, temperature 0.7。

请问已经生成STC_result.txt,想生成像Readme 评价指标表格中的 PPL | BLEU-2 | BLEU-4 | Dist-1 | Dist-2 | Greedy Matching | Embedding Average 这些值,请问你们是怎么计算的?

请问你评测指标的代码的结果符合论文里的了吗,可以分享一下吗,我的一直些问题。