BLEU和Rouge测评指标问题询问

Question

JF-BAI opened this issue 10 months ago · 2 comments

BLEU的指标取值范围在0.0-1.0之间，请问你们的测评结果是怎么大于1的？是进行了某些累加操作吗？如果可以的话，可否公开一下你们的评估代码，非常感谢！

Answer 1 · 2024-03-08T13:06:47.000Z

首先，您是正确的，BLEU（Bilingual Evaluation Understudy）评分的标准取值范围确实是0.0至1.0之间。这个评分衡量的是机器翻译输出和一组参考翻译之间的相似度，其中1.0是完美匹配的得分，而0.0则表示没有任何匹配。

关于您提到的评估结果大于1的情况，这实际上是因为我们为了让结果更加易于展示，将BLEU评分的结果乘以了100。因此，如果原始BLEU评分为0.75，展示给用户的评分将会是75。这样做的目的是为了让评分更加有区分度，因为百分比形式的得分对大多数人来说更加直观。

为了保持透明度和便于理解，我们会附上我们的评估代码。这样，任何对我们评估方法有疑问或兴趣的人都可以直接查看和理解我们是如何进行评分的。请在下面的链接中查找评估代码：
machine_metrics.zip

我们希望这能够解答您的疑问。如果您有任何其他问题或需要更多信息，请随时联系我们。

再次感谢您的关注和支持。

Answer 2 · 2024-03-12T05:56:41.000Z

首先，非常感谢您关于评价指标问题的解答！我们收到了您发来的评估代码，它非常有用，但是我们注意到，代码当中有一些包/module是我们从官方渠道无法找到的，所缺module如图所示，您是否可以将该module的安装包分享出来？再次对您的好心表示感谢！