BLEU和Rouge测评指标问题询问
JF-BAI opened this issue · 2 comments
JF-BAI commented
anonNo2 commented
首先,您是正确的,BLEU(Bilingual Evaluation Understudy)评分的标准取值范围确实是0.0至1.0之间。这个评分衡量的是机器翻译输出和一组参考翻译之间的相似度,其中1.0是完美匹配的得分,而0.0则表示没有任何匹配。
关于您提到的评估结果大于1的情况,这实际上是因为我们为了让结果更加易于展示,将BLEU评分的结果乘以了100。因此,如果原始BLEU评分为0.75,展示给用户的评分将会是75。这样做的目的是为了让评分更加有区分度,因为百分比形式的得分对大多数人来说更加直观。
为了保持透明度和便于理解,我们会附上我们的评估代码。这样,任何对我们评估方法有疑问或兴趣的人都可以直接查看和理解我们是如何进行评分的。请在下面的链接中查找评估代码:
machine_metrics.zip
我们希望这能够解答您的疑问。如果您有任何其他问题或需要更多信息,请随时联系我们。
再次感谢您的关注和支持。
JF-BAI commented