/SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese

SuperCLUE

中文通用大模型综合性基准SuperCLUE

榜单地址

公众号文章:SuperCLUE中文大模型测评基准10月榜单发布

官网地址:www.cluebenchmarks.com/superclue.html

技术报告:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark

【2023-10-25】 发布SuperCLUE-2023年10月榜单

【2023-10-19】 SuperCLUE-Agent:Agent智能体中文原生任务评估基准

【2023-9-12】 SuperCLUE-Safety:中文大模型多轮对抗安全基准

【2023-9-26】,SuperCLUE发布中文大模型9月榜单。

SuperCLUE是一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent智能体和安全性,进而细化为12项基础能力。

相比与上月,新增了AI Agent智能体

SuperCLUE能力评估结构图

SuperCLUE多维度测评方案

为什么新增AI Agent智能体能力?

AI agent(智能体)是当前与大语言模型相关的前沿研究热点,拥有类似贾维斯等科幻电影中人类超级助手的能力,可以根据需求自主的完成任务。 然而,面向AI agent智能体,缺乏针对中文大模型的广泛评估。为了解决这一问题,我们在SuperCLUE新的榜单中新增了AI agent智能体能力的测评。 这个榜单将重点评估AI agent在【工具使用】和【任务规划】两个关键能力上的表现,这项工作旨在为评估中文大模型作为智能体的表现提供一个基础和可能。

SuperCLUE总排行榜(2023年10月)

排名 模型 机构 总分 OPEN
多轮开放
OPT
客观题
使用
- GPT4 OpenAI 87.08 88.07 85.60 API
- Claude2 Anthropic 72.46 75.11 68.48 API
- GPT3.5 OpenAI 71.12 73.12 68.13 API
🏅️ BlueLM vivo 70.74 66.78 76.67 申请
🥈 Moonshot 月之暗面 70.42 66.02 77.03 网页
🥉 文心一言4.0 百度 69.26 61.81 80.44 API
🥉 SenseChat 3.0 商汤科技 69.25 63.16 78.39 API
5 ChatGLM2-Pro 清华&智谱 65.93 58.53 77.02 API
6 云雀大模型(豆包) 字节跳动 64.39 59.11 72.30 网页
7 讯飞星火V3.0 科大讯飞 63.99 59.26 71.08 API
8 Baichuan2-13B-Chat 百川智能 62.70 57.77 70.09 模型
9 MiniMax-Abab5.5 MiniMax 59.57 48.13 76.72 API
10 通义千问plus 阿里巴巴 57.09 43.36 77.68 API
11 Qwen-14B-Chat 阿里巴巴 56.97 43.10 77.78 API
12 讯飞星火V2.0 科大讯飞 55.24 47.95 66.18 API
13 OpenBuddy-70B OpenBuddy 53.34 45.14 65.65 模型
14 Chinese_Alpaca2_13B yiming cui 47.27 41.95 55.26 模型
15 360GPT_S2_V9 360 43.79 28.44 66.82 API
16 ChatGLM2-6B 清华&智谱 42.27 29.48 61.45 模型
- Llama2-13B-Chat Meta 36.46 33.91 40.28 模型

注:处于前列的模型,如果分数比较接近(小于0.03分),在排名时会被记为并列的名称。

SuperCLUE-OPEN多轮开放问题排行榜(2023年10月)

排名 模型 机构 OPEN
总分
语言
理解
专业技能
与知识
工具
使用
传统
安全
使用
- GPT4 OpenAI 88.07 81.01 94.90 88.75 88.27 API
- Claude2 Anthropic 75.11 65.02 84.56 62.50 90.31 API
- GPT3.5 OpenAI 73.12 67.27 79.49 56.88 87.24 API
🏅️ BlueLM vivo 66.78 55.22 75.07 59.12 87.48 申请
🥈 Moonshot 月之暗面 66.02 53.07 72.92 71.25 84.95 网页
🥉 SenseChat 3.0 商汤科技 63.16 48.58 69.79 71.15 86.99 API
4 文心一言4.0 百度 61.81 37.07 77.95 69.62 88.40 API
5 讯飞星火V3.0 科大讯飞 59.26 41.32 73.48 48.75 84.69 API
6 云雀大模型(豆包) 字节跳动 59.11 50.71 63.07 43.12 92.86 API
7 ChatGLM2-Pro 清华&智谱 58.53 44.59 67.26 51.95 85.97 API
8 Baichuan2-13B-Chat 百川智能 57.77 52.76 56.81 62.50 76.92 模型
9 MiniMax-Abab5.5 MiniMax 48.13 32.67 56.89 50.63 72.45 API
10 讯飞星火V2.0 科大讯飞 47.95 33.23 54.53 43.75 84.69 API
11 OpenBuddy-70B OpenBuddy 45.14 25.45 54.51 56.33 75.26 模型
12 通义千问plus 阿里巴巴 43.36 21.98 55.34 45.62 78.72 API
13 Qwen-14B-Chat 阿里巴巴 43.10 21.98 53.94 50.00 77.30 API
14 Chinese_Alpaca2_13B yiming cui 41.95 40.77 39.90 21.25 75.51 模型
- Llama2-13B-Chat Meta 33.91 33.17 26.17 30.52 71.17 模型
15 ChatGLM2-6B 清华&智谱 29.48 19.29 31.66 10.62 80.36 模型
16 360GPT_S2_V9 360 28.44 14.47 32.40 17.31 79.59 API

SuperCLUE-OPT三大能力客观题排行榜(2023年10月)

排名 模型 机构 OPT分数 基础能力 中文特性 学术与
专业能力
使用
- GPT4 OpenAI 85.60 92.83 86.48 77.82 API
🏅️ 文心一言4.0 百度 80.44 90.02 89.62 62.78 API
🥈 SenseChat 3.0 商汤科技 78.39 87.79 85.41 62.95 API
🥉 Qwen-14B-Chat 阿里巴巴 77.78 88.96 85.71 59.38 API
4 通义千问plus 阿里巴巴 77.68 87.56 85.81 60.47 API
5 Moonshot 月之暗面 77.03 85.60 83.74 62.35 网页
6 ChatGLM2-Pro 清华&智谱 77.02 86.65 86.48 59.03 API
7 MiniMax-Abab5.5 MiniMax 76.72 87.23 83.45 60.48 API
8 BlueLM vivo 76.67 86.61 85.11 59.36 申请
9 云雀大模型 字节跳动 72.30 81.09 78.93 57.64 API
10 讯飞星火V3.0 科大讯飞 71.08 82.23 81.19 49.80 API
11 Baichuan2-13B-Chat 百川智能 70.09 80.20 80.41 50.92 模型
- Claude2 Anthropic 68.48 81.04 67.62 57.35 API
- GPT3.5 OpenAI 68.13 82.80 67.91 54.53 API
12 360GPT_S2_V9 360 66.82 82.50 73.43 44.65 API
13 讯飞星火V2.0 科大讯飞 66.18 80.04 73.74 45.24 API
14 OpenBuddy-70B OpenBuddy 65.65 83.83 63.57 50.32 模型
15 ChatGLM2-6B 清华&智谱 61.45 75.53 67.09 42.83 模型
16 Chinese_Alpaca2_13B yiming cui 55.26 69.74 56.96 39.93 模型
- Llama2-13B-Chat Meta 40.28 51.74 36.14 33.30 模型

SuperCLUE十大基础能力排行榜(2023年10月)

模型 机构 计算 逻辑
推理
代码 知识
百科
语言
理解
生成
创作
对话 角色
扮演
工具
使用
传统
安全
GPT4 OpenAI 95.56 100.00 85.89 98.14 100.00 68.68 75.68 79.68 88.75 88.27
Claude2 Anthropic 75.48 100.00 74.63 88.14 84.91 46.58 67.42 61.16 62.50 90.31
GPT3.5 OpenAI 74.04 95.10 69.25 79.56 87.61 55.65 59.26 66.57 56.88 87.24
BlueLM vivo 58.52 90.11 60.91 90.73 68.52 40.32 59.84 52.21 59.12 87.48
文心一言4.0 百度 71.30 98.61 60.81 81.08 70.65 18.42 30.26 28.95 69.62 88.40
SenseChat 3.0 商汤科技 43.40 88.16 58.57 89.02 81.82 27.63 37.50 47.37 71.15 86.99
MiniMax-Abab5.5 MiniMax 34.26 63.51 47.37 82.43 54.35 21.05 26.32 28.95 50.63 72.45
OpenBuddy-70B OpenBuddy 31.48 89.19 47.37 50.00 47.83 9.21 28.95 15.79 56.33 75.26
Moonshot 月之暗面 64.81 100.00 44.74 82.14 88.04 31.08 52.63 40.54 71.25 84.95
Qwen-14B-Chat 阿里巴巴 52.78 52.86 44.74 65.38 46.74 14.47 14.86 11.84 50.00 77.30
讯飞星火V3.0 科大讯飞 68.52 85.53 43.42 96.43 58.70 27.63 28.95 50.00 48.75 84.69
ChatGLM2-Pro 清华&智谱 64.81 90.54 36.84 76.83 65.22 25.00 48.68 39.47 51.95 85.97
Baichuan2-13B-Chat 百川智能 50.93 80.26 36.84 59.21 66.30 32.89 57.89 53.95 62.50 76.92
通义千问plus 阿里巴巴 46.30 70.00 35.53 69.51 51.09 3.95 21.05 11.84 45.62 78.72
Chinese_Alpaca2_13B yiming cui 24.07 52.70 35.53 47.30 67.39 18.42 40.79 36.49 21.25 75.51
Llama2-13B-Chat Meta 7.41 48.53 32.89 15.85 60.87 26.32 28.38 17.11 30.52 71.17
讯飞星火V2.0 科大讯飞 51.85 55.41 31.58 79.27 50.00 28.95 28.95 25.00 43.75 84.69
云雀(豆包) 字节跳动 43.52 93.42 26.32 89.02 88.04 12.16 50.00 52.63 43.12 92.86
ChatGLM2-6B 清华&智谱 18.52 58.11 25.00 25.00 52.17 6.58 7.89 10.53 10.62 80.36
360GPT_S2_V9 360 13.89 64.86 16.22 34.62 25 2.63 21.05 9.21 17.31 79.59

SuperCLUE开源模型排行榜(2023年10月)

排名 模型 机构 总分 OPEN
多轮开放
OPT
客观题
使用
- GPT4 OpenAI 87.08 88.07 85.60 API
- Claude2 Anthropic 72.46 75.11 68.48 API
- GPT3.5 OpenAI 71.12 73.12 68.13 API
🏅 Baichuan2-13B-Chat 百川智能 62.70 57.77 70.09 模型
🥈 Qwen-14B-Chat 阿里巴巴 56.97 43.10 77.78 API
🥉 OpenBuddy-70B OpenBuddy 53.34 45.14 65.65 模型
4 Chinese_Alpaca2_13B yiming cui 47.27 41.95 55.26 模型
5 ChatGLM2-6B 清华&智谱 42.27 29.48 61.45 模型
- Llama2-13B-Chat Meta 36.46 33.91 40.28 模型

23-10月测评改进

1. 模型变动

1)本次评测选取了目前国内外最具代表性的20个通用大语言模型。与9月相比,新增了月之暗面的Moonshot、百度的文心一言4.0、科大讯飞的星火V3.0、 vivo的vivoLM和阿里云的Qwen-14B。

具体被测模型的配置信息见Github的ModelCard。Github地址:https://github.com/CLUEbenchmark/SuperCLUE

2. 评测任务变动

本月评测任务新增AI智能体,重点评估AI Agent在【工具使用】这个关键能力上的表现;大模型安全使用【传统安全】这一关键能力。

3. 评分机制变动(与9月一致)

SuperCLUE结合大模型市场技术进展及国内外评测基准现状,对综合性评测总分评分逻辑进行优化。

1)多轮开放评测OPEN评分标准:在与基线模型对战过程中,我们认为胜的情况价值意义更大。所以,本次OPEN测评将胜(1分)调整为胜(3分)。如一道题目对战,胜得3分,平局得1分,负得0分。

2)我们发现客观选择题并不能考察中文大模型的真实综合能力,多轮主观题的能力尤为重要,所以我们在计算总分时,将OPEN的权重由50%提升至60%。

示例

能力1:语义理解与抽取

这是一种语言能力,能够理解并解析输入的文字信息的含义。模型需要能够识别短语、句子、段落的含义,同时还要能从更大的文本块中抽取关键信息和主题。

多轮对话示例

注:本示例中可同时评测多轮对话能力

能力2:AI agent(智能体)能力

AI agent(智能体)是当前与大语言模型相关的前沿研究热点,拥有类似贾维斯等科幻电影中人类超级助手的能力,可以根据需求自主的完成任务。

重点评估AI agent在【工具使用】和【任务规划】两个关键能力上的表现

示例

能力3:上下文对话

这是一种语言能力,需要理解并记住前面的对话信息,以便在回答中保持连贯性。这涉及到理解对话的整体流程和上下文环境,或生成相应的对话。

示例

能力4:生成与创作

这是一种语言能力,能够创造新的文本内容,如文章、文案、短故事、诗歌。这涉及到创造性地运用语言,同时还要考虑到风格、语境和目标读者。

示例

能力5:知识与百科

这是一种知识能力,能够像百科全书一样提供知识信息。这涉及到理解和回答关于广泛主题的问题,以及提供准确、详细和最新的信息。

示例

能力6:代码

这是一种专业能力,能够理解和生成编程代码。这涉及到理解多种编程语言的语法、结构和习惯,以及如何解决编程问题。

多轮对话示例

注:本示例中可同时评测多轮对话能力

能力7:逻辑与推理

这是一种专业能力,能够理解和应用逻辑原则进行推理。这涉及到分析问题、识别问题及推理。

示例

能力8:计算

这是一种专业能力,使其能够执行数学运算,如加法、减法、乘法和除法,甚至更复杂的数学问题。这涉及到理解数学问题的表述,以及如何步骤地解决这些问题。

多轮对话示例

注:本示例中可同时评测多轮对话能力

能力9:角色扮演

这是一种感知能力,使其能够在特定的模拟环境或情景中扮演一个角色。这涉及到理解特定角色的行为、说话风格,以及在特定情境下的适当反应。

示例

能力10:安全

这是一种安全能力,防止生成可能引起困扰或伤害的内容。这涉及到识别和避免可能包含敏感或不适当内容的请求,以及遵守用户的隐私和安全政策。

示例

8月榜单更新情况

1.综合性:将OPEN多轮开放问题与OPT三大能力客观题进行了结合起来,作为8月榜单;

2.模型细节:Baichuan-13B-Chat使用了是最新的模型权重,具体见huggingface的权重;文心一言,OPT三大能力客观题使用的是API(Ernie-3.5-turbo); 360使用的是api版本;

3.模型更新:去除了一些前期大家比较关注但当前活跃度不高的模型,如MOSS,BELLE等;加入了一些如Qwen-7B-Chat和3个Llam2相关模型。