Review测评指标失真，Qwen被严重低估了

Question

Review测评指标失真，Qwen被严重低估了

Opened this issue a month ago · 1 comments

teval.evaluators.review_evaluator.py代码中，根据“:”(英文半角符判断答案)，但是测试样本中的的指令却是“Answer：”（中文全角符）。Qwen1.5-14B-Chat的大多数结果都是"Answer：A"、"Answer：B"、"Answer：C"...这样的。根据下面的代码，截取出来的结果就是“Answer”的第一字符“A”。也就是说Review指标上Qwen1.5-14B-Chat 基本都是A，与事实不符。这样写死的判断代码，测出的结果失真。

代码：
pred_data = pred_data[pred_data.find(":") + 1:]
pred_data = pred_data.strip()
if len(pred_data) > 0 and pred_data[0] in ['A', 'B', 'C', 'D', 'E']:

测试样本指令：“你的输出应遵循以下格式：\n```\nAnswer：[在此处插入你的选择，从A、B、C、D和E中选择。这应该是一个字符。]\”

Answer 1 · 2024-05-14T07:08:47.000Z

感谢您指出问题，我们将会在下一版数据中fix这个问题