THUDM/ChatGLM2-6B

[BUG/Help] <title>实测C-Eval数据集中验证集所有subject的平均准确率与提供的结果有差异

hongfengvvv opened this issue · 0 comments

Is there an existing issue for this?

  • I have searched the existing issues

Current Behavior

我们对chatglm2-6b进行了C-Eval数据集中验证集所有subject的平均准确率测试:
模型地址:https://huggingface.co/THUDM/chatglm2-6b/tree/main
原始C-Eval数据集地址:https://github.com/hkust-nlp/ceval
采用的是针对chaglm2-6b处理后的C-Eval数据集:https://cloud.tsinghua.edu.cn/f/e84444333b6d434ea7b0/
我们使用了https://github.com/THUDM/ChatGLM2-6B/blob/main/evaluation/evaluate_ceval.py脚本进行了测试,
cpu fp32精度下,正确率是 53.56%;
在GPU上的half类型的正确率是53.42%;

Expected Behavior

能否解释这种差异的来源,与我们的测试是否有不一致的地方,比如在提供的数据中使用设备和推理精度分别是什么?测试的是否为C-Eval数据集的验证集?使用的模型是否一致?或者有其他需要注意的点。

Steps To Reproduce

  1. 修改evaluate_ceval.py,在GPU上推理时指定精度为half
  2. 修改evaluate_ceval.py,指定设备类型为cpu、精度为float

Environment

与官方环境一致

Anything else?

No response