THUDM/ChatGLM2-6B

[BUG/Help] <title>实测C-Eval数据集中验证集所有subject的平均准确率与提供的结果有差异

hongfengvvv opened this issue a year ago · 0 comments

hongfengvvv commented a year ago

Is there an existing issue for this?

I have searched the existing issues

Current Behavior

我们对chatglm2-6b进行了C-Eval数据集中验证集所有subject的平均准确率测试：
模型地址：https://huggingface.co/THUDM/chatglm2-6b/tree/main
原始C-Eval数据集地址：https://github.com/hkust-nlp/ceval
采用的是针对chaglm2-6b处理后的C-Eval数据集：https://cloud.tsinghua.edu.cn/f/e84444333b6d434ea7b0/
我们使用了https://github.com/THUDM/ChatGLM2-6B/blob/main/evaluation/evaluate_ceval.py脚本进行了测试，
cpu fp32精度下，正确率是 53.56%；
在GPU上的half类型的正确率是53.42%；

Expected Behavior

能否解释这种差异的来源，与我们的测试是否有不一致的地方，比如在提供的数据中使用设备和推理精度分别是什么？测试的是否为C-Eval数据集的验证集？使用的模型是否一致？或者有其他需要注意的点。

Steps To Reproduce

修改evaluate_ceval.py，在GPU上推理时指定精度为half
修改evaluate_ceval.py，指定设备类型为cpu、精度为float

Environment

与官方环境一致

Anything else?

No response