CMMLU---中文多任务语言理解评估

简体中文 | English

简介

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的**驾驶规则等。此外，CMMLU中的许多任务具有**特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全**化的中文测试基准。

排行榜

以下表格显示了模型在 five-shot 和 zero-shot 下的表现。如果您想贡献您的模型结果，请与我们联系或直接提交拉取请求。

Five-shot

模型	STEM	人文学科	社会科学	其他	**特定主题	平均分
多语言向
GPT4	65.23	72.11	72.06	74.79	66.12	70.95
ChatGPT	47.81	55.68	56.50	62.66	50.69	55.51
Falcon-40B	33.33	43.46	44.28	44.75	39.46	41.45
LLaMA-65B	34.47	40.24	41.55	42.88	37.00	39.80
BLOOMZ-7B	30.56	39.10	38.59	40.32	37.15	37.04
Bactrian-LLaMA-13B	27.52	32.47	32.27	35.77	31.56	31.88
中文向
Baichuan-13B	42.38	61.61	60.44	59.26	56.62	55.82
ChatGLM2-6B	42.55	50.98	50.99	50.80	48.37	48.80
Baichuan-7B	35.25	48.07	47.88	46.61	44.14	44.43
ChatGLM-6B	32.35	39.22	39.65	38.62	37.70	37.48
BatGPT-15B	34.96	35.45	36.31	42.14	37.89	37.16
Chinese-LLaMA-13B	27.12	33.18	34.87	35.10	32.97	32.63
MOSS-SFT-16B	27.23	30.41	28.84	32.56	28.68	29.57
Chinese-GLM-10B	25.49	27.05	27.42	29.21	28.05	27.26
Random	25.00	25.00	25.00	25.00	25.00	25.00

Zero-shot

模型	STEM	人文学科	社会科学	其他	**特定主题	平均分
多语言向
GPT4	63.16	69.19	70.26	73.16	63.47	68.90
ChatGPT	44.80	53.61	54.22	59.95	49.74	53.22
BLOOMZ-7B	33.03	45.74	45.74	46.25	41.58	42.80
Falcon-40B	31.11	41.30	40.87	40.61	36.05	38.50
LLaMA-65B	31.09	34.45	36.05	37.94	32.89	34.88
Bactrian-LLaMA-13B	26.46	29.36	31.81	31.55	29.17	30.06
中文向
Baichuan-13B	42.04	60.49	59.55	56.60	55.72	54.63
ChatGLM2-6B	41.28	52.85	53.37	52.24	50.58	49.95
Baichuan-7B	32.79	44.43	46.78	44.79	43.11	42.33
ChatGLM-6B	32.22	42.91	44.81	42.60	41.93	40.79
BatGPT-15B	33.72	36.53	38.07	46.94	38.32	38.51
Chinese-LLaMA-13B	26.76	26.57	27.42	28.33	26.73	27.34
MOSS-SFT-16B	25.68	26.35	27.21	27.92	26.70	26.88
Chinese-GLM-10B	25.57	25.01	26.33	25.94	25.81	25.80
Random	25.00	25.00	25.00	25.00	25.00	25.00

数据格式

数据集中的每个问题都是一个多项选择题，有4个选项，只有一个选项是正确答案。数据以逗号分隔的.csv文件形式存在。数据可以在以下位置找到：这里是数据格式的示例：

    同一物种的两类细胞各产生一种分泌蛋白，组成这两种蛋白质的各种氨基酸含量相同，但排列顺序不同。其原因是参与这两种蛋白质合成的,tRNA种类不同,同一密码子所决定的氨基酸不同,mRNA碱基序列不同,核糖体成分不同,C

使用方法

要在您的项目中使用我们的代码，请将存储库克隆到本地计算机：

    git clone https://github.com/haonan-li/CMMLU.git
    cd CMMLU/src

数据

我们根据每个主题在data/dev和data/test目录中提供了开发和测试数据集。

提示

我们在src/mp_utils目录中提供了预处理代码。其中包括我们用于生成直接回答提示和思路链 (COT) 提示的方法。

以下是添加直接回答提示后的数据示例：

    以下是关于(高中生物)的单项选择题，请直接给出正确答案的选项。
    题目：同一物种的两类细胞各产生一种分泌蛋白，组成这两种蛋白质的各种氨基酸含量相同，但排列顺序不同。其原因是参与这两种蛋白质合成的：
    A. tRNA种类不同
    B. 同一密码子所决定的氨基酸不同
    C. mRNA碱基序列不同
    D. 核糖体成分不同
    答案是：C

    ... [其他例子] 

    题目：某种植物病毒V是通过稻飞虱吸食水稻汁液在水稻间传播的。稻田中青蛙数量的增加可减少该病毒在水稻间的传播。下列叙述正确的是：
   
    A. 青蛙与稻飞虱是捕食关系
    B. 水稻和病毒V是互利共生关系
    C. 病毒V与青蛙是寄生关系
    D. 水稻与青蛙是竞争关系
    答案是：

对于思路链提示，我们将提示从“请直接给出正确答案的选项”修改为“逐步分析并选出正确答案”。

评估

我们使用的每个模型的评估代码位于src中，运行它们的代码列在script目录中。

引用

@misc{li2023cmmlu,
      title={CMMLU: Measuring massive multitask language understanding in Chinese}, 
      author={Haonan Li and Yixuan Zhang and Fajri Koto and Yifei Yang and Hai Zhao and Yeyun Gong and Nan Duan and Timothy Baldwin},
      year={2023},
      eprint={2306.09212},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

许可证

CMMLU数据集采用 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

nlp4whp/CMMLU