/SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese

SuperCLUE

中文通用大模型综合性基准SuperCLUE

SuperCLUE中文大模型测评基准12月榜单发布

官网地址:www.cluebenchmarks.com/superclue.html

技术报告:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark

【2023-12-27】 《中文大模型基准测评报告2023年度报告》发布

【2023-12-28】 发布SuperCLUE-2023年12月榜单

【2023-10-19】 SuperCLUE-Agent:Agent智能体中文原生任务评估基准

【2023-9-12】 SuperCLUE-Safety:中文大模型多轮对抗安全基准

【2023-9-26】,SuperCLUE发布中文大模型9月榜单。

SuperCLUE是一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent智能体和安全性,进而细化为12项基础能力。

相比与上月,新增了AI Agent智能体

SuperCLUE能力评估结构图

SuperCLUE多维度测评方案

为什么新增AI Agent智能体能力?

AI agent(智能体)是当前与大语言模型相关的前沿研究热点,拥有类似贾维斯等科幻电影中人类超级助手的能力,可以根据需求自主的完成任务。 然而,面向AI agent智能体,缺乏针对中文大模型的广泛评估。为了解决这一问题,我们在SuperCLUE新的榜单中新增了AI agent智能体能力的测评。 这个榜单将重点评估AI agent在【工具使用】和【任务规划】两个关键能力上的表现,这项工作旨在为评估中文大模型作为智能体的表现提供一个基础和可能。

SuperCLUE总排行榜(2023年12月)

排名 模型 机构 总分 OPEN多轮
开放问题
OPT三大
能力客观题
使用
- GPT4-Turbo OpenAI 90.63 90.89 90.03 API
- GPT4(网页) OpenAI 83.92 80.76 91.28 网页
- GPT4(API) OpenAI 79.84 76.24 88.24 API
🏅️ 文心一言4.0(API) 百度 79.02 75.00 88.38 API
🥈 通义千问2.0 阿里巴巴 76.54 71.78 87.64 API
🥉 AndesGPT OPPO 75.04 70.01 86.76 API
4 智谱清言 清华&智谱 74.11 69.91 83.92 网页
5 Moonshot(KimiChat) 月之暗面 71.92 67.25 82.81 网页
- 文心一言4.0(网页) 百度 70.28 62.59 88.22 网页
6 Qwen-72B-Chat 阿里巴巴 69.69 62.31 86.90 API
7 序列猴子 出门问问 68.98 61.01 87.59 API
8 Yi-34B-Chat 零一万物 68.46 61.99 83.56 模型
9 PCI-TransGPT 佳都科技 68.33 60.41 86.81 API
9 360GPT_Pro 360 68.32 61.36 84.56 API
- Claude2 Anthropic 67.43 65.14 72.77 API
11 云雀大模型(豆包) 字节跳动 66.35 58.53 84.60 网页
- Gemini-pro Google 65.29 59.33 79.20 API
- GPT3.5-Turbo OpenAI 61.44 55.63 74.98 API
12 Qwen-14B-Chat 阿里巴巴 61.27 52.04 82.81 API
13 Baichuan2-13B-Chat 百川智能 61.12 54.45 76.67 模型
14 XVERSE-13B-2-Chat 元象科技 60.46 53.00 77.87 模型
15 讯飞星火V3.0 科大讯飞 59.33 51.74 77.03 API
16 Minimax(应事) 稀宇科技 58.91 50.00 79.69 网页
17 ChatGLM3-6B 清华&智谱 49.50 42.30 66.31 模型
18 Chinese-Alpaca-2-13B yiming cui 45.36 38.91 60.40 模型
- Llama_2_13B_Chat Meta 37.36 34.91 43.09 模型

注:处于前列的模型,如果分数比较接近(小于0.03分),在排名时会被记为并列的名称。

SuperCLUE-OPEN多轮开放问题排行榜(2023年12月)

排名 模型 机构 OPEN多轮
开放问题
语言
与知识
专业
与技能
工具
使用
传统
安全
使用
- GPT4-Turbo OpenAI 90.89 90.21 97.00 100.00 62.75 API
- GPT4(网页) OpenAI 80.76 79.49 82.87 94.63 64.71 网页
- GPT4(API) OpenAI 76.24 73.96 81.15 93.34 53.92 API
🏅️ 文心一言4.0(API) 百度 75.00 69.54 79.62 80.92 68.00 API
🥈 通义千问2.0 阿里巴巴 71.78 71.58 73.40 76.32 52.94 API
🥉 AndesGPT OPPO 70.01 72.23 68.80 70.71 55.88 API
4 智谱清言 清华&智谱 69.91 66.98 68.63 83.78 65.31 网页
5 Moonshot(KimiChat) 月之暗面 67.25 69.72 72.57 62.19 43.14 网页
- Claude2 Anthropic 65.14 55.28 73.27 65.13 83.00 API
- 文心一言4.0(网页) 百度 62.59 65.05 63.26 47.37 64.00 网页
6 Qwen-72B-Chat 阿里巴巴 62.31 59.43 65.59 60.67 52.00 API
7 Yi-34B-Chat 零一万物 61.99 63.90 54.55 71.05 65.31 模型
8 360GPT_Pro 360 61.36 62.09 58.70 69.33 60.00 API
9 序列猴子 出门问问 61.01 65.81 59.99 56.58 45.10 API
10 PCI-TransGPT 佳都科技 60.41 60.39 61.56 64.66 50.98 API
- Gemini-pro Google 59.33 60.50 61.43 46.53 62.50 API
11 云雀大模型(豆包) 字节跳动 58.53 57.75 56.42 55.26 67.65 网页
- GPT3.5-Turbo OpenAI 55.63 55.30 56.24 55.26 52.00 API
12 Baichuan2-13B-Chat 百川智能 54.45 57.35 48.69 56.58 54.90 模型
13 XVERSE-13B-2-Chat 元象科技 53.00 54.63 45.82 63.33 57.84 模型
14 Qwen-14B-Chat 阿里巴巴 52.04 54.29 48.38 45.33 56.86 API
15 讯飞星火V3.0 科大讯飞 51.74 57.40 48.41 44.00 43.14 API
16 Minimax(应事) 稀宇科技 50.00 53.54 45.05 40.13 50.00 网页
17 ChatGLM3-6B 清华&智谱 42.30 46.67 36.15 34.25 53.92 模型
18 Chinese-Alpaca-2-13B yiming cui 38.91 46.46 29.35 27.63 46.94 模型
- Llama_2_13B_Chat Meta 34.91 36.55 30.21 32.67 53.92 模型

SuperCLUE-OPT三大能力客观题排行榜(2023年12月)

排名 模型 机构 OPT分数 基础
能力
中文
特性
学术专
业能力
使用
- GPT4(网页) OpenAI 91.28 97.62 82.38 93.85 网页
- GPT4-Turbo OpenAI 90.03 96.99 79.16 93.93 API
🏅️ 文心一言4.0(API) 百度 88.38 91.65 86.18 87.32 API
- GPT4(API) OpenAI 88.24 92.92 81.84 89.95 API
- 文心一言4.0(网页) 百度 88.22 76.48 78.32 57.05 网页
🥈 通义千问2.0 阿里巴巴 87.64 78.65 81.28 63.48 API
🥉 序列猴子 出门问问 87.59 91.46 80.28 90.57 API
4 Qwen-72B-Chat 阿里巴巴 86.90 92.21 76.65 91.05 API
5 PCI-TransGPT 佳都科技 86.81 90.76 80.88 88.42 API
6 AndesGPT OPPO 86.76 92.55 76.17 90.81 API
7 云雀大模型(豆包) 字节跳动 84.60 88.75 70.89 93.06 网页
8 360GPT_Pro 360 84.56 91.70 73.32 87.93 API
9 智谱清言 清华&智谱 83.92 89.14 73.10 88.72 网页
10 Yi-34B-Chat 零一万物 83.56 86.90 72.81 90.12 模型
11 Qwen-14B-Chat 阿里巴巴 82.81 91.14 68.67 87.31 API
12 Moonshot(KimiChat) 月之暗面 82.81 87.77 73.39 86.41 网页
13 Minimax(应事) 稀宇科技 79.69 86.52 66.18 85.18 网页
- Gemini-pro Google 79.20 83.72 70.78 82.51 API
14 XVERSE-13B-2-Chat 元象科技 77.87 84.46 62.96 83.85 模型
15 讯飞星火V3.0 科大讯飞 77.03 84.04 63.43 82.48 API
16 Baichuan2-13B-Chat 百川智能 76.67 80.61 63.79 84.50 模型
- GPT3.5-Turbo OpenAI 74.98 83.78 62.83 77.60 API
- Claude2 Anthropic 72.77 82.13 65.83 70.10 API
17 ChatGLM3-6B 清华&智谱 66.31 72.63 54.05 71.38 模型
18 Chinese-Alpaca-2-13B yiming cui 60.40 70.39 47.75 62.31 模型
- Llama_2_13B_Chat Meta 43.09 50.41 37.22 41.48 模型

SuperCLUE十大基础能力排行榜(2023年12月)

模型 计算 逻辑
推理
代码 知识
百科
语言
理解
生成
创作
对话 角色
扮演
工具
使用
传统
安全
GPT4-Turbo 97.24 97.59 96.18 89.62 87.82 89.93 89.22 94.46 100.00 62.75
GPT4(网页) 81.16 85.62 81.84 79.17 81.91 78.91 78.38 79.09 94.63 64.71
文心一言4.0(API) 77.84 87.84 73.19 98.63 71.93 66.36 57.03 53.77 80.92 68.00
GPT4(API) 77.60 85.37 80.49 78.08 73.04 72.73 75.78 70.17 93.34 53.92
Claude2 70.10 80.14 69.57 62.33 72.32 39.81 54.76 47.17 65.13 83.00
通义千问2.0 70.10 73.29 76.81 93.15 71.93 62.73 68.75 61.32 76.32 52.94
智谱清言 69.07 77.40 59.42 89.73 64.91 61.11 57.81 61.32 83.78 65.31
Qwen-72B-Chat 68.56 68.06 60.14 95.89 63.16 42.59 48.44 47.06 60.67 52.00
Moonshot(KimiChat) 68.54 79.65 69.52 100.00 66.78 59.65 61.33 60.84 62.19 43.14
AndesGPT 62.59 72.26 71.55 88.36 74.82 64.23 68.56 65.19 70.71 55.88
GPT3.5-Turbo 60.31 54.05 54.35 60.27 59.82 55.45 50.00 50.96 55.26 52.00
360GPT_Pro 56.43 64.97 54.70 93.84 62.79 55.73 55.75 42.32 69.33 60.00
Gemini-pro 56.32 58.45 69.53 73.91 61.61 54.63 52.54 59.80 46.53 62.50
序列猴子 55.38 67.12 57.48 92.47 58.77 57.81 56.75 63.27 56.58 45.10
云雀大模型(豆包) 54.69 68.92 45.65 86.99 56.14 48.18 53.12 44.34 55.26 67.65
Yi-34B-Chat 50.00 64.38 49.28 88.36 65.18 62.73 58.87 44.34 71.05 65.31
PCI-TransGPT 49.99 72.19 62.49 82.88 60.45 57.18 54.76 46.69 64.66 50.98
Qwen-14B-Chat 49.48 56.85 38.81 76.71 61.40 45.45 43.75 44.12 45.33 56.86
文心一言4.0(网页) 48.45 79.73 61.59 97.26 65.79 60.91 53.17 48.11 47.37 64.00
XVERSE-13B-2-Chat 43.30 50.68 43.48 72.92 57.02 47.27 46.88 49.06 63.33 57.84
Minimax(应事) 43.30 61.43 30.43 100.00 55.26 33.33 45.16 33.96 40.13 50.00
Baichuan2-13B-Chat 40.62 66.22 39.23 78.77 53.51 52.78 55.47 46.23 56.58 54.90
讯飞星火V3.0 38.54 57.43 49.26 83.57 62.28 47.17 46.83 47.17 44.00 43.14
ChatGLM3-6B 34.74 41.10 32.61 56.94 54.39 38.18 41.41 42.45 34.25 53.92
Llama_2_13B_Chat 24.74 40.54 25.36 36.11 41.07 43.64 28.91 33.02 32.67 53.92
Chinese-Alpaca-2-13B 22.40 45.21 20.45 51.37 51.75 39.09 47.66 42.45 27.63 46.94

SuperCLUE开源模型排行榜(2023年12月)

排名 模型 机构 总分 OPEN
多轮开放问题
OPT
三大能力客观题
🏅️ Qwen-72B-Chat 阿里巴巴 69.69 62.31 86.90
🥈 Yi-34B-Chat 零一万物 68.46 61.99 83.56
🥉 Qwen-14B-Chat 阿里巴巴 61.27 52.04 82.81
4 Baichuan2-13B-Chat 百川智能 61.12 54.45 76.67
5 XVERSE-13B-2-Chat 元象科技 60.46 53.00 77.87
6 ChatGLM3-6B 清华&智谱 49.50 42.30 66.31
7 Chinese-Alpaca-2-13B yiming cui 45.36 38.91 60.40
- Llama_2_13B_Chat Meta 37.36 34.91 43.09

23-11月测评改进

1. 本次测评中SuperCLUE-Open的超级模型(裁判模型)由10月的GPT4升级为能力更强的GPT4-Turbo,进一步提升开放主观题评估的精确性。

2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。

3. 与10月相比,本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。

示例

能力1:语义理解与抽取

这是一种语言能力,能够理解并解析输入的文字信息的含义。模型需要能够识别短语、句子、段落的含义,同时还要能从更大的文本块中抽取关键信息和主题。

多轮对话示例

注:本示例中可同时评测多轮对话能力

能力2:AI agent(智能体)能力

AI agent(智能体)是当前与大语言模型相关的前沿研究热点,拥有类似贾维斯等科幻电影中人类超级助手的能力,可以根据需求自主的完成任务。

重点评估AI agent在【工具使用】和【任务规划】两个关键能力上的表现

示例

能力3:上下文对话

这是一种语言能力,需要理解并记住前面的对话信息,以便在回答中保持连贯性。这涉及到理解对话的整体流程和上下文环境,或生成相应的对话。

示例

能力4:生成与创作

这是一种语言能力,能够创造新的文本内容,如文章、文案、短故事、诗歌。这涉及到创造性地运用语言,同时还要考虑到风格、语境和目标读者。

示例

能力5:知识与百科

这是一种知识能力,能够像百科全书一样提供知识信息。这涉及到理解和回答关于广泛主题的问题,以及提供准确、详细和最新的信息。

示例

能力6:代码

这是一种专业能力,能够理解和生成编程代码。这涉及到理解多种编程语言的语法、结构和习惯,以及如何解决编程问题。

多轮对话示例

注:本示例中可同时评测多轮对话能力

能力7:逻辑与推理

这是一种专业能力,能够理解和应用逻辑原则进行推理。这涉及到分析问题、识别问题及推理。

示例

能力8:计算

这是一种专业能力,使其能够执行数学运算,如加法、减法、乘法和除法,甚至更复杂的数学问题。这涉及到理解数学问题的表述,以及如何步骤地解决这些问题。

多轮对话示例

注:本示例中可同时评测多轮对话能力

能力9:角色扮演

这是一种感知能力,使其能够在特定的模拟环境或情景中扮演一个角色。这涉及到理解特定角色的行为、说话风格,以及在特定情境下的适当反应。

示例

能力10:安全

这是一种安全能力,防止生成可能引起困扰或伤害的内容。这涉及到识别和避免可能包含敏感或不适当内容的请求,以及遵守用户的隐私和安全政策。

示例

8月榜单更新情况

1.综合性:将OPEN多轮开放问题与OPT三大能力客观题进行了结合起来,作为8月榜单;

2.模型细节:Baichuan-13B-Chat使用了是最新的模型权重,具体见huggingface的权重;文心一言,OPT三大能力客观题使用的是API(Ernie-3.5-turbo); 360使用的是api版本;

3.模型更新:去除了一些前期大家比较关注但当前活跃度不高的模型,如MOSS,BELLE等;加入了一些如Qwen-7B-Chat和3个Llam2相关模型。