CMMLU---中文多任务语言理解评估

简体中文 | English

简介

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的**驾驶规则等。此外，CMMLU中的许多任务具有**特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全**化的中文测试基准。

注：如果有古汉语的评估需求，欢迎使用ACLUE.

排行榜

Note： 自2023-12-16日起，对于未开放公测的API模型，我们将验证 1.模型是否有基本的指令跟随能力；2.是否存在数据污染，通过验证的模型会被更新在榜单。

以下表格显示了模型在 five-shot 和 zero-shot 测试下的表现。

Five-shot

模型	STEM	人文学科	社会科学	其他	**特定主题	平均分
开放测试的模型
Qwen1.5-110B	81.59	92.41	89.14	91.19	89.02	88.32
Qwen1.5-72B	76.83	88.37	84.15	86.06	83.77	83.54
PCI-TransGPT	76.85	86.46	81.65	84.57	82.85	82.46
Qwen1.5-32B	76.25	86.31	83.42	83.82	82.84	82.25
BlueLM-7B	61.36	79.83	77.80	78.89	76.74	74.27
Qwen1.5-7B	63.64	76.42	74.69	75.91	73.43	72.50
XuanYuan-70B	60.74	77.79	75.47	70.81	70.92	71.10
GPT4	65.23	72.11	72.06	74.79	66.12	70.95
XuanYuan-13B	50.07	66.32	64.11	59.99	60.55	60.05
Qwen-7B	48.39	63.77	61.22	62.14	58.73	58.66
ZhiLu-13B	44.26	61.54	60.25	61.14	57.14	57.16
ChatGPT	47.81	55.68	56.50	62.66	50.69	55.51
Baichuan-13B	42.38	61.61	60.44	59.26	56.62	55.82
ChatGLM2-6B	42.55	50.98	50.99	50.80	48.37	48.80
Baichuan-7B	35.25	48.07	47.88	46.61	44.14	44.43
Falcon-40B	33.33	43.46	44.28	44.75	39.46	41.45
LLaMA-65B	34.47	40.24	41.55	42.88	37.00	39.80
ChatGLM-6B	32.35	39.22	39.65	38.62	37.70	37.48
BatGPT-15B	34.96	35.45	36.31	42.14	37.89	37.16
BLOOMZ-7B	30.56	39.10	38.59	40.32	37.15	37.04
Chinese-LLaMA-13B	27.12	33.18	34.87	35.10	32.97	32.63
Bactrian-LLaMA-13B	27.52	32.47	32.27	35.77	31.56	31.88
MOSS-SFT-16B	27.23	30.41	28.84	32.56	28.68	29.57
未开放测试的模型
BlueLM	78.16	90.50	86.88	87.87	87.55	85.59
Mind GPT	76.76	87.09	83.74	84.70	81.82	82.84
ZW-LM	72.68	85.84	83.61	85.68	82.71	81.73
QuarkLLM	70.97	85.20	82.88	82.71	81.12	80.27
Galaxy	69.61	74.95	78.54	77.93	73.99	74.03
KwaiYii-66B	56.70	79.43	72.84	74.43	71.11	71.12
FanFan-1.5B	59.84	70.86	70.72	72.19	69.73	66.50
Mengzi-7B	49.59	75.27	71.36	70.52	69.23	66.41
KwaiYii-13B	46.54	69.22	64.49	65.09	63.10	61.73
MiLM-6B	46.85	61.12	61.68	58.84	59.39	57.17
MiLM-1.3B	35.59	49.58	49.03	47.56	48.17	45.39
Random	25.00	25.00	25.00	25.00	25.00	25.00

Zero-shot

模型	STEM	人文学科	社会科学	其他	**特定主题	平均分
开放测试的模型
Qwen1.5-110B	80.84	91.51	89.01	89.99	88.64	87.64
PCI-TransGPT	76.69	86.26	81.71	84.47	83.13	82.44
Qwen1.5-72B	75.07	86.15	83.06	83.84	82.78	81.81
Qwen1.5-32B	74.82	85.13	82.49	84.34	82.47	81.47
BlueLM-7B	62.08	81.29	79.38	79.56	77.69	75.40
Qwen1.5-7B	62.87	74.90	72.65	74.64	71.94	71.05
XuanYuan-70B	61.21	76.25	74.44	70.67	69.35	70.59
GPT4	63.16	69.19	70.26	73.16	63.47	68.90
XuanYuan-13B	50.22	67.55	63.85	61.17	61.50	60.51
Qwen-7B	46.33	62.54	60.48	61.72	58.77	57.57
ZhiLu-13B	43.53	61.60	61.40	60.15	58.97	57.14
ChatGPT	44.80	53.61	54.22	59.95	49.74	53.22
Baichuan-13B	42.04	60.49	59.55	56.60	55.72	54.63
ChatGLM2-6B	41.28	52.85	53.37	52.24	50.58	49.95
BLOOMZ-7B	33.03	45.74	45.74	46.25	41.58	42.80
Baichuan-7B	32.79	44.43	46.78	44.79	43.11	42.33
ChatGLM-6B	32.22	42.91	44.81	42.60	41.93	40.79
BatGPT-15B	33.72	36.53	38.07	46.94	38.32	38.51
Falcon-40B	31.11	41.30	40.87	40.61	36.05	38.50
LLaMA-65B	31.09	34.45	36.05	37.94	32.89	34.88
Bactrian-LLaMA-13B	26.46	29.36	31.81	31.55	29.17	30.06
Chinese-LLaMA-13B	26.76	26.57	27.42	28.33	26.73	27.34
MOSS-SFT-16B	25.68	26.35	27.21	27.92	26.70	26.88
未开放测试的模型
BlueLM	76.36	90.34	86.23	86.94	86.84	84.68
云天天书	73.03	83.78	82.30	84.04	81.37	80.62
Mind GPT	71.20	83.95	80.59	82.11	78.90	79.20
QuarkLLM	67.23	81.69	79.47	80.74	77.00	77.08
Galaxy	69.38	75.33	78.27	78.19	73.25	73.85
ZW-LM	63.93	77.95	76.28	72.99	72.94	72.74
KwaiYii-66B	55.20	77.10	71.74	73.30	71.27	69.96
Mengzi-7B	49.49	75.84	72.32	70.87	70.00	66.88
KwaiYii-13B	46.82	69.35	63.42	64.02	63.26	61.22
FanFan-1.5B	54.02	64.53	63.22	67.09	62.57	61.03
MiLM-6B	48.88	63.49	66.20	62.14	62.07	60.37
MiLM-1.3B	40.51	54.82	54.15	53.99	52.26	50.79
Random	25.00	25.00	25.00	25.00	25.00	25.00

如何提交测试结果

对于开源或开放API的模型，可直接提交拉取请求（可以选择同时在src目录下更新测试代码）。
如模型未开放公测，请发送测试代码到haonan.li@librai.tech，同时将测试结果更新在榜单，并提交拉取请求。我们会在验证结果的真实性之后更新榜单。

数据

我们根据每个主题在data目录中提供了开发和测试数据集。您也可以通过Hugging Face或取我们的数据。

快速使用

我们的数据集已经添加到 lm-evaluation-harness 和 OpenCompass 中，您可以通过这些开源平台快速测试。

数据格式

数据集中的每个问题都是一个多项选择题，有4个选项，只有一个选项是正确答案。数据以逗号分隔的.csv文件形式存在。示例：

    同一物种的两类细胞各产生一种分泌蛋白，组成这两种蛋白质的各种氨基酸含量相同，但排列顺序不同。其原因是参与这两种蛋白质合成的,tRNA种类不同,同一密码子所决定的氨基酸不同,mRNA碱基序列不同,核糖体成分不同,C

提示

我们在src/mp_utils目录中提供了预处理代码。其中包括我们用于生成直接回答提示和思路链 (COT) 提示的方法。

以下是添加直接回答提示后的数据示例：

    以下是关于(高中生物)的单项选择题，请直接给出正确答案的选项。
    题目：同一物种的两类细胞各产生一种分泌蛋白，组成这两种蛋白质的各种氨基酸含量相同，但排列顺序不同。其原因是参与这两种蛋白质合成的：
    A. tRNA种类不同
    B. 同一密码子所决定的氨基酸不同
    C. mRNA碱基序列不同
    D. 核糖体成分不同
    答案是：C

    ... [其他例子] 

    题目：某种植物病毒V是通过稻飞虱吸食水稻汁液在水稻间传播的。稻田中青蛙数量的增加可减少该病毒在水稻间的传播。下列叙述正确的是：
   
    A. 青蛙与稻飞虱是捕食关系
    B. 水稻和病毒V是互利共生关系
    C. 病毒V与青蛙是寄生关系
    D. 水稻与青蛙是竞争关系
    答案是：

对于思路链提示，我们将提示从“请直接给出正确答案的选项”修改为“逐步分析并选出正确答案”。

评估

我们使用的每个模型的评估代码位于src中，运行它们的代码列在script目录中。

引用

@misc{li2023cmmlu,
      title={CMMLU: Measuring massive multitask language understanding in Chinese}, 
      author={Haonan Li and Yixuan Zhang and Fajri Koto and Yifei Yang and Hai Zhao and Yeyun Gong and Nan Duan and Timothy Baldwin},
      year={2023},
      eprint={2306.09212},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

许可证

CMMLU数据集采用 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

wxsms/CMMLU