CLiB中文大模型能力评测榜单（持续更新）

目前已囊括74个大模型，覆盖chatgpt、gpt4、谷歌bard、百度文心一言、阿里通义千问、讯飞星火、360智脑、商汤senseChat、微软new-bing、minimax等商用模型，以及百川、qwen、belle、chatglm6b、tigerbot、ziya、openbuddy、Phoenix、linly、MOSS、AquilaChat、vicuna、wizardLM、书生internLM、llama2-chat等开源大模型。
模型来源涉及国内外大厂、大模型创业公司、高校研究机构。
支持多维度能力评测，包括分类能力、信息抽取能力、阅读理解能力、表格问答能力。
不仅提供能力评分排行榜，也提供所有模型的原始输出结果！有兴趣的朋友可以自己打分、自己排行！

🔄最近更新
⚓TODO
📝大模型基本信息
📊排行榜
- 综合能力排行榜
  - 10B以下开源大模型排行榜
  - 10B~20B开源大模型排行榜
  - 20B以上开源大模型排行榜
- 分类能力排行榜
- 信息抽取能力排行榜
- 阅读理解能力排行榜
- 数据分析排行榜
🌐各项能力评分
⚖️原始评测数据
为什么做榜单？

TODO

将更多大模型加入评测：Claude、falcon等等
增加开源大模型的授权协议，注明能否商用
引入更多维度的评测：数学能力、代码能力、开放域问答、多轮对话、头脑风暴、翻译……
评测维度更细分，比如信息抽取可以细分时间实体抽取能力、地址实体抽取能力……
海纳百川，整合各类评测榜单，扩充细分领域榜单（比如教育领域、医疗领域）
加入更多评测数据，使得评测得分越来越有说服力

大模型基本信息

详见中文大模型资源汇总（商用及开源）

📊 排行榜

1、综合能力排行榜

综合能力得分为分类能力、信息抽取能力、阅读理解能力、数据分析能力四者得分的平均值。

类别	大模型	总分	排名
商用	gpt4	96.1	1
商用	微软new-bing	93.0	2
商用	gpt-4-turbo(new)	92.8	3
商用	GLM4	92.3	4
商用	文心4.0	91.4	5
商用	讯飞星火v3.5(new)	88.9	6
商用	阿里qwen-max	88.7	7
商用	月之暗面kimichat(new)	87.6	8
开源	Qwen1.5-14B-Chat	87.3	9
开源	Qwen-72B-Chat	87.3	10
开源	Qwen1.5-72B-Chat	87.1	11
商用	gpt-3.5-turbo	87.0	12
开源	internlm2-chat-20b	86.8	13
开源	AquilaChat2-70B-Expr(new)	86.8	14
开源	deepseek-llm-67b-chat	86.7	15
商用	文心一言v2.2	86.5	16
开源	tigerbot-70b-chat-v2	86.5	17
开源	openbuddy-deepseek-67b	86.2	18
商用	baichuan3	86.1	19
商用	讯飞星火v3	85.8	20
开源	XVERSE-65B-Chat	85.0	21
商用	谷歌bard	84.1	22
开源	tigerbot-70b-chat-v3	83.5	23
开源	openbuddy-llama2-70b-v10.1	83.2	24
开源	tigerbot-13b-chat-v4	83.0	25
商用	chatglm-turbo	83.0	26
开源	Yi-34B-Chat	82.9	27
开源	aquilachat2-34b	82.5	28
商用	商汤senseChat	81.9	29
开源	openbuddy-mixtral-7bx8-v17.1	81.8	30
开源	internlm2-chat-7b	80.6	31
开源	BELLE-Llama2-13B-chat-0.4M	79.8	32
商用	字节跳动豆包	79.5	33
开源	qwen-14b-chat	79.4	34
开源	Baichuan2-13B-Chat	79.4	35
开源	Baichuan2-7B-Chat	79.1	36
商用	阿里通义千问	79.0	37
开源	BlueLM-7B-Chat	77.8	38
开源	openbuddy-zephyr-7b	77.8	39
开源	openbuddy-llama-65b-v8	76.8	40
开源	xverse-13b-chat	76.6	41
商用	chatglm-std	76.0	42
商用	chatglm-pro	75.8	43
开源	Qwen1.5-7B-Chat	75.7	44
商用	讯飞星火v1.5	75.5	45
开源	谷歌gemma-7b-it(new)	75.3	46
开源	openbuddy-mistral-7b-v13.1	75.1	47
商用	360智脑	74.3	48
开源	MiniCPM-2B-dpo(new)	74.0	49
开源	Llama-2-70b-chat	73.6	50
开源	Qwen-7B-Chat	73.5	51
商用	讯飞星火v2.0	72.8	52
开源	Baichuan-13B-Chat-v2	72.7	53
开源	chatglm3-6b	72.2	54
开源	Qwen1.5-4B-Chat	70.6	55
开源	miniCPM-2B-sft(new)	68.7	56
开源	Yi-6B-Chat	68.7	57
开源	Linly-Chinese-LLaMA2-13B	67.3	58
开源	ziya2-13b-chat	67.3	59
开源	Qwen-1_8B-Chat	66.4	60
商用	minimax	66.3	61
开源	openbuddy-openllama-3b-v10	56.5	62
开源	谷歌gemma-2b-it(new)	54.8	63
开源	Qwen1.5-1.8B-Chat	53.9	64
开源	Qwen1.5-0.5B-Chat	44.7	65

(1) 10B以下大模型排行榜

类别	大模型	分类能力	信息抽取能力	阅读理解能力	表格问答	总分	排名
开源	internlm2-chat-7b	86	81	72.7	82.7	80.6	1
开源	Baichuan2-7B-Chat	88	76	83.3	69.0	79.1	2
开源	BlueLM-7B-Chat	82	83	74.0	72.0	77.8	3
开源	openbuddy-zephyr-7b	82	83	74.0	72.0	77.8	4
开源	Qwen1.5-7B-Chat	80	76	76.0	70.7	75.7	5
开源	谷歌gemma-7b-it(new)	72	79	74.0	76.0	75.3	6
开源	openbuddy-mistral-7b-v13.1	79	72	73.3	76.0	75.1	7
开源	MiniCPM-2B-dpo(new)	79	77	74.0	66.0	74.0	8
开源	Qwen-7B-Chat	89	72	74.0	59.0	73.5	9
开源	chatglm3-6b	82	68	78.7	60.0	72.2	10
开源	Qwen1.5-4B-Chat	75	65	79.3	63.0	70.6	11
开源	miniCPM-2B-sft(new)	72	72	77.3	53.3	68.7	12
开源	Yi-6B-Chat	73	71	66.0	64.7	68.7	13
开源	Qwen-1_8B-Chat	73	66	75.3	51.3	66.4	14
开源	openbuddy-openllama-3b-v10	64	60	61.3	40.7	56.5	15
开源	谷歌gemma-2b-it(new)	56	60	60.0	43.3	54.8	16
开源	Qwen1.5-1.8B-Chat	57	58	52.7	48.0	53.9	17
开源	Qwen1.5-0.5B-Chat	44	40	60.0	34.7	44.7	18

(2) 10B~20B大模型排行榜

类别	大模型	分类能力	信息抽取能力	阅读理解能力	表格问答	总分	排名
开源	Qwen1.5-14B-Chat	89	79	90.7	90.7	87.3	1
开源	internlm2-chat-20b	93	80	86.0	88.0	86.8	2
开源	tigerbot-13b-chat-v4	85	82	80.0	85.0	83.0	3
开源	BELLE-Llama2-13B-chat-0.4M	90	74	76.0	79.0	79.8	4
开源	qwen-14b-chat	84	72	84.7	77.0	79.4	5
开源	Baichuan2-13B-Chat	83	83	74.7	77.0	79.4	6
开源	xverse-13b-chat	86	72	81.3	67.0	76.6	7
开源	Baichuan-13B-Chat-v2	82	69	72.7	67.0	72.7	8
开源	Linly-Chinese-LLaMA2-13B	78	67	67.3	57.0	67.3	9
开源	ziya2-13b-chat	76	54	71.3	68.0	67.3	10

(3) 30B以上大模型排行榜

类别	大模型	分类能力	信息抽取能力	阅读理解能力	表格问答	总分	排名
开源	Qwen-72B-Chat	89	80	92.7	87.3	87.3	1
开源	Qwen1.5-72B-Chat	89	84	88.0	87.3	87.1	2
开源	AquilaChat2-70B-Expr(new)	82	84	92.0	89.3	86.8	3
开源	deepseek-llm-67b-chat	87	81	86.7	92.0	86.7	4
开源	tigerbot-70b-chat-v2	97	84	80.0	85.0	86.5	5
开源	openbuddy-deepseek-67b	86	89	84.7	85.0	86.2	6
开源	XVERSE-65B-Chat	83	84	84.0	89.0	85.0	7
开源	tigerbot-70b-chat-v3	94	85	84.0	71.0	83.5	8
开源	openbuddy-llama2-70b-v10.1	86	84	86.7	76.0	83.2	9
开源	Yi-34B-Chat	88	82	84.7	77.0	82.9	10
开源	aquilachat2-34b	77	82	88.0	83.0	82.5	11
开源	openbuddy-mixtral-7bx8-v17.1	86	73	86.0	82.0	81.8	12
开源	openbuddy-llama-65b-v8	68	84	79.3	76.0	76.8	13
开源	Llama-2-70b-chat	86	66	73.3	69.0	73.6	14

2、分类能力排行榜

类别	大模型	分类能力	排名
开源	tigerbot-70b-chat-v2	97	1
商用	微软new-bing	95	2
商用	gpt4	94	3
开源	tigerbot-70b-chat-v3	94	4
开源	internlm2-chat-20b	93	5
商用	月之暗面kimichat(new)	92	6
商用	gpt-4-turbo(new)	91	7
开源	BELLE-Llama2-13B-chat-0.4M	90	8
商用	文心一言v2.2	90	9
开源	Qwen-7B-Chat	89	10
开源	Qwen1.5-14B-Chat	89	11
开源	Qwen1.5-72B-Chat	89	12
开源	Qwen-72B-Chat	89	13
开源	Yi-34B-Chat	88	14
开源	Baichuan2-7B-Chat	88	15
商用	文心4.0	88	16
开源	deepseek-llm-67b-chat	87	17
商用	讯飞星火v3.5(new)	87	18
商用	讯飞星火v3	87	19
开源	internlm2-chat-7b	86	20
商用	GLM4	86	21
开源	openbuddy-mixtral-7bx8-v17.1	86	22
开源	xverse-13b-chat	86	23
开源	openbuddy-llama2-70b-v10.1	86	24
商用	360智脑	86	25
商用	baichuan3	86	26
商用	chatglm-turbo	86	27
开源	Llama-2-70b-chat	86	28
商用	阿里qwen-max	86	29
开源	openbuddy-deepseek-67b	86	30
商用	谷歌bard	86	31
开源	tigerbot-13b-chat-v4	85	32
商用	chatglm-pro	84	33
商用	chatglm-std	84	34
开源	qwen-14b-chat	84	35
开源	Baichuan2-13B-Chat	83	36
开源	XVERSE-65B-Chat	83	37
开源	Baichuan-13B-Chat-v2	82	38
开源	BlueLM-7B-Chat	82	39
开源	AquilaChat2-70B-Expr(new)	82	40
商用	商汤senseChat	82	41
开源	openbuddy-zephyr-7b	82	42
开源	chatglm3-6b	82	43
商用	gpt-3.5-turbo	81	44
商用	阿里通义千问	81	45
开源	Qwen1.5-7B-Chat	80	46
开源	MiniCPM-2B-dpo(new)	79	47
开源	openbuddy-mistral-7b-v13.1	79	48
商用	字节跳动豆包	79	49
开源	Linly-Chinese-LLaMA2-13B	78	50
开源	aquilachat2-34b	77	51
商用	讯飞星火v1.5	76	52
开源	ziya2-13b-chat	76	53
开源	Qwen1.5-4B-Chat	75	54
开源	Yi-6B-Chat	73	55
开源	Qwen-1_8B-Chat	73	56
开源	谷歌gemma-7b-it(new)	72	57
开源	miniCPM-2B-sft(new)	72	58
商用	讯飞星火v2.0	72	59
开源	openbuddy-llama-65b-v8	68	60
商用	minimax	68	61
开源	openbuddy-openllama-3b-v10	64	62
开源	Qwen1.5-1.8B-Chat	57	63
开源	谷歌gemma-2b-it(new)	56	64
开源	Qwen1.5-0.5B-Chat	44	65

3、信息抽取能力排行榜

类别	大模型	信息抽取能力	排名
商用	gpt4	94	1
商用	讯飞星火v3.5(new)	92	2
商用	GLM4	90	3
商用	gpt-4-turbo(new)	90	4
商用	文心4.0	89	5
开源	openbuddy-deepseek-67b	89	6
商用	谷歌bard	88	7
商用	文心一言v2.2	87	8
商用	月之暗面kimichat(new)	85	9
商用	商汤senseChat	85	10
开源	tigerbot-70b-chat-v3	85	11
开源	tigerbot-70b-chat-v2	84	12
开源	Qwen1.5-72B-Chat	84	13
开源	openbuddy-llama2-70b-v10.1	84	14
开源	openbuddy-llama-65b-v8	84	15
开源	AquilaChat2-70B-Expr(new)	84	16
开源	XVERSE-65B-Chat	84	17
商用	微软new-bing	83	18
商用	baichuan3	83	19
开源	Baichuan2-13B-Chat	83	20
开源	openbuddy-zephyr-7b	83	21
开源	BlueLM-7B-Chat	83	22
商用	gpt-3.5-turbo	83	23
商用	讯飞星火v3	82	24
开源	aquilachat2-34b	82	25
开源	tigerbot-13b-chat-v4	82	26
商用	阿里qwen-max	82	27
开源	Yi-34B-Chat	82	28
开源	deepseek-llm-67b-chat	81	29
开源	internlm2-chat-7b	81	30
商用	阿里通义千问	81	31
商用	讯飞星火v1.5	81	32
开源	internlm2-chat-20b	80	33
开源	Qwen-72B-Chat	80	34
开源	Qwen1.5-14B-Chat	79	35
开源	谷歌gemma-7b-it(new)	79	36
商用	字节跳动豆包	77	37
开源	MiniCPM-2B-dpo(new)	77	38
开源	Baichuan2-7B-Chat	76	39
开源	Qwen1.5-7B-Chat	76	40
商用	讯飞星火v2.0	75	41
商用	chatglm-turbo	75	42
开源	BELLE-Llama2-13B-chat-0.4M	74	43
开源	openbuddy-mixtral-7bx8-v17.1	73	44
开源	Qwen-7B-Chat	72	45
开源	miniCPM-2B-sft(new)	72	46
开源	qwen-14b-chat	72	47
开源	xverse-13b-chat	72	48
开源	openbuddy-mistral-7b-v13.1	72	49
开源	Yi-6B-Chat	71	50
商用	chatglm-std	71	51
商用	360智脑	71	52
商用	chatglm-pro	70	53
开源	Baichuan-13B-Chat-v2	69	54
开源	chatglm3-6b	68	55
开源	Linly-Chinese-LLaMA2-13B	67	56
开源	Qwen-1_8B-Chat	66	57
开源	Llama-2-70b-chat	66	58
开源	Qwen1.5-4B-Chat	65	59
商用	minimax	61	60
开源	openbuddy-openllama-3b-v10	60	61
开源	谷歌gemma-2b-it(new)	60	62
开源	Qwen1.5-1.8B-Chat	58	63
开源	ziya2-13b-chat	54	64
开源	Qwen1.5-0.5B-Chat	40	65

4、阅读理解能力排行榜

阅读理解能力是一种符合能力，考查针对给定信息的理解能力。依据给定信息的种类，可以细分为：文章问答、表格问答、对话问答……

类别	大模型	阅读理解能力	排名
商用	gpt4	99.3	1
商用	GLM4	97.3	2
商用	阿里qwen-max	95.3	3
商用	文心4.0	94.7	4
商用	gpt-4-turbo(new)	94.0	5
商用	微软new-bing	94.0	6
开源	Qwen-72B-Chat	92.7	7
商用	gpt-3.5-turbo	92.7	8
开源	AquilaChat2-70B-Expr(new)	92.0	9
商用	baichuan3	90.7	10
开源	Qwen1.5-14B-Chat	90.7	11
商用	chatglm-turbo	90.0	12
商用	讯飞星火v3.5(new)	89.3	13
开源	aquilachat2-34b	88.0	14
商用	讯飞星火v3	88.0	15
商用	文心一言v2.2	88.0	16
开源	Qwen1.5-72B-Chat	88.0	17
开源	openbuddy-llama2-70b-v10.1	86.7	18
开源	deepseek-llm-67b-chat	86.7	19
开源	openbuddy-mixtral-7bx8-v17.1	86.0	20
开源	internlm2-chat-20b	86.0	21
商用	谷歌bard	85.3	22
开源	Yi-34B-Chat	84.7	23
开源	openbuddy-deepseek-67b	84.7	24
开源	qwen-14b-chat	84.7	25
开源	tigerbot-70b-chat-v3	84.0	26
开源	XVERSE-65B-Chat	84.0	27
商用	月之暗面kimichat(new)	84.0	28
开源	Baichuan2-7B-Chat	83.3	29
商用	商汤senseChat	82.7	30
开源	xverse-13b-chat	81.3	31
商用	阿里通义千问	81.0	32
商用	字节跳动豆包	80.0	33
开源	tigerbot-70b-chat-v2	80.0	34
开源	tigerbot-13b-chat-v4	80.0	35
商用	讯飞星火v2.0	79.3	36
开源	openbuddy-llama-65b-v8	79.3	37
开源	Qwen1.5-4B-Chat	79.3	38
开源	chatglm3-6b	78.7	39
开源	miniCPM-2B-sft(new)	77.3	40
商用	chatglm-std	76.0	41
商用	chatglm-pro	76.0	42
商用	讯飞星火v1.5	76.0	43
开源	Qwen1.5-7B-Chat	76.0	44
开源	BELLE-Llama2-13B-chat-0.4M	76.0	45
开源	Qwen-1_8B-Chat	75.3	46
开源	Baichuan2-13B-Chat	74.7	47
开源	Qwen-7B-Chat	74.0	48
开源	MiniCPM-2B-dpo(new)	74.0	49
开源	BlueLM-7B-Chat	74.0	50
开源	谷歌gemma-7b-it(new)	74.0	51
商用	360智脑	74.0	52
开源	openbuddy-zephyr-7b	74.0	53
开源	Llama-2-70b-chat	73.3	54
开源	openbuddy-mistral-7b-v13.1	73.3	55
商用	minimax	73.3	56
开源	internlm2-chat-7b	72.7	57
开源	Baichuan-13B-Chat-v2	72.7	58
开源	ziya2-13b-chat	71.3	59
开源	Linly-Chinese-LLaMA2-13B	67.3	60
开源	Yi-6B-Chat	66.0	61
开源	openbuddy-openllama-3b-v10	61.3	62
开源	谷歌gemma-2b-it(new)	60.0	63
开源	Qwen1.5-0.5B-Chat	60.0	64
开源	Qwen1.5-1.8B-Chat	52.7	65

5、数据分析排行榜

暂不计入综合能力评分。专门考查大模型对表格的理解分析能力，常用于数据分析。

类别	大模型	数据分析能力	排名
商用	微软new-bing	100.0	1
商用	gpt4	97.0	2
商用	gpt-4-turbo(new)	96.0	3
商用	GLM4	96.0	4
商用	文心4.0	94.0	5
开源	deepseek-llm-67b-chat	92.0	6
商用	gpt-3.5-turbo	91.3	7
商用	阿里qwen-max	91.3	8
开源	Qwen1.5-14B-Chat	90.7	9
开源	AquilaChat2-70B-Expr(new)	89.3	10
商用	月之暗面kimichat(new)	89.3	11
开源	XVERSE-65B-Chat	89.0	12
开源	internlm2-chat-20b	88.0	13
商用	讯飞星火v3.5(new)	87.3	14
开源	Qwen1.5-72B-Chat	87.3	15
开源	Qwen-72B-Chat	87.3	16
商用	讯飞星火v3	86.0	17
开源	tigerbot-13b-chat-v4	85.0	18
开源	tigerbot-70b-chat-v2	85.0	19
开源	openbuddy-deepseek-67b	85.0	20
商用	baichuan3	84.7	21
开源	aquilachat2-34b	83.0	22
开源	internlm2-chat-7b	82.7	23
商用	字节跳动豆包	82.0	24
开源	openbuddy-mixtral-7bx8-v17.1	82.0	25
商用	文心一言v2.2	81.0	26
商用	chatglm-turbo	81.0	27
开源	BELLE-Llama2-13B-chat-0.4M	79.0	28
商用	商汤senseChat	78.0	29
开源	Yi-34B-Chat	77.0	30
商用	谷歌bard	77.0	31
开源	qwen-14b-chat	77.0	32
开源	Baichuan2-13B-Chat	77.0	33
开源	openbuddy-llama-65b-v8	76.0	34
开源	谷歌gemma-7b-it(new)	76.0	35
开源	openbuddy-mistral-7b-v13.1	76.0	36
开源	openbuddy-llama2-70b-v10.1	76.0	37
商用	阿里通义千问	73.0	38
商用	chatglm-pro	73.0	39
商用	chatglm-std	73.0	40
开源	BlueLM-7B-Chat	72.0	41
开源	openbuddy-zephyr-7b	72.0	42
开源	tigerbot-70b-chat-v3	71.0	43
开源	Qwen1.5-7B-Chat	70.7	44
开源	Llama-2-70b-chat	69.0	45
开源	Baichuan2-7B-Chat	69.0	46
商用	讯飞星火v1.5	69.0	47
开源	ziya2-13b-chat	68.0	48
开源	xverse-13b-chat	67.0	49
开源	Baichuan-13B-Chat-v2	67.0	50
商用	360智脑	66.0	51
开源	MiniCPM-2B-dpo(new)	66.0	52
商用	讯飞星火v2.0	65.0	53
开源	Yi-6B-Chat	64.7	54
开源	Qwen1.5-4B-Chat	63.0	55
商用	minimax	63.0	56
开源	chatglm3-6b	60.0	57
开源	Qwen-7B-Chat	59.0	58
开源	Linly-Chinese-LLaMA2-13B	57.0	59
开源	miniCPM-2B-sft(new)	53.3	60
开源	Qwen-1_8B-Chat	51.3	61
开源	Qwen1.5-1.8B-Chat	48.0	62
开源	谷歌gemma-2b-it(new)	43.3	63
开源	openbuddy-openllama-3b-v10	40.7	64
开源	Qwen1.5-0.5B-Chat	34.7	65

🌐各项能力评分

评分方法：从各个维度给大模型打分，每个维度都对应一个评测数据集，包含若干道题。每道题依据大模型回复质量给1~5分，将评测集内所有题的得分累加并归一化为100分制，即作为最终得分。

类别	大模型	分类能力	信息抽取能力	阅读理解能力	数据分析能力	综合能力
商用	gpt4	94	94	99.3	97.0	96.1
商用	微软new-bing	95	83	94.0	100.0	93.0
商用	gpt-4-turbo(new)	91	90	94.0	96.0	92.8
商用	GLM4	86	90	97.3	96.0	92.3
商用	文心4.0	88	89	94.7	94.0	91.4
商用	讯飞星火v3.5(new)	87	92	89.3	87.3	88.9
商用	阿里qwen-max	86	82	95.3	91.3	88.7
商用	月之暗面kimichat(new)	92	85	84.0	89.3	87.6
开源	Qwen1.5-14B-Chat	89	79	90.7	90.7	87.3
开源	Qwen-72B-Chat	89	80	92.7	87.3	87.3
开源	Qwen1.5-72B-Chat	89	84	88.0	87.3	87.1
商用	gpt-3.5-turbo	81	83	92.7	91.3	87.0
开源	internlm2-chat-20b	93	80	86.0	88.0	86.8
开源	AquilaChat2-70B-Expr(new)	82	84	92.0	89.3	86.8
开源	deepseek-llm-67b-chat	87	81	86.7	92.0	86.7
商用	文心一言v2.2	90	87	88.0	81.0	86.5
开源	tigerbot-70b-chat-v2	97	84	80.0	85.0	86.5
开源	openbuddy-deepseek-67b	86	89	84.7	85.0	86.2
商用	baichuan3	86	83	90.7	84.7	86.1
商用	讯飞星火v3	87	82	88.0	86.0	85.8
开源	XVERSE-65B-Chat	83	84	84.0	89.0	85.0
商用	谷歌bard	86	88	85.3	77.0	84.1
开源	tigerbot-70b-chat-v3	94	85	84.0	71.0	83.5
开源	openbuddy-llama2-70b-v10.1	86	84	86.7	76.0	83.2
开源	tigerbot-13b-chat-v4	85	82	80.0	85.0	83.0
商用	chatglm-turbo	86	75	90.0	81.0	83.0
开源	Yi-34B-Chat	88	82	84.7	77.0	82.9
开源	aquilachat2-34b	77	82	88.0	83.0	82.5
商用	商汤senseChat	82	85	82.7	78.0	81.9
开源	openbuddy-mixtral-7bx8-v17.1	86	73	86.0	82.0	81.8
开源	internlm2-chat-7b	86	81	72.7	82.7	80.6
开源	BELLE-Llama2-13B-chat-0.4M	90	74	76.0	79.0	79.8
商用	字节跳动豆包	79	77	80.0	82.0	79.5
开源	qwen-14b-chat	84	72	84.7	77.0	79.4
开源	Baichuan2-13B-Chat	83	83	74.7	77.0	79.4
开源	Baichuan2-7B-Chat	88	76	83.3	69.0	79.1
商用	阿里通义千问	81	81	81.0	73.0	79.0
开源	BlueLM-7B-Chat	82	83	74.0	72.0	77.8
开源	openbuddy-zephyr-7b	82	83	74.0	72.0	77.8
开源	openbuddy-llama-65b-v8	68	84	79.3	76.0	76.8
开源	xverse-13b-chat	86	72	81.3	67.0	76.6
商用	chatglm-std	84	71	76.0	73.0	76.0
商用	chatglm-pro	84	70	76.0	73.0	75.8
开源	Qwen1.5-7B-Chat	80	76	76.0	70.7	75.7
商用	讯飞星火v1.5	76	81	76.0	69.0	75.5
开源	谷歌gemma-7b-it(new)	72	79	74.0	76.0	75.3
开源	openbuddy-mistral-7b-v13.1	79	72	73.3	76.0	75.1
商用	360智脑	86	71	74.0	66.0	74.3
开源	MiniCPM-2B-dpo(new)	79	77	74.0	66.0	74.0
开源	Llama-2-70b-chat	86	66	73.3	69.0	73.6
开源	Qwen-7B-Chat	89	72	74.0	59.0	73.5
商用	讯飞星火v2.0	72	75	79.3	65.0	72.8
开源	Baichuan-13B-Chat-v2	82	69	72.7	67.0	72.7
开源	chatglm3-6b	82	68	78.7	60.0	72.2
开源	Qwen1.5-4B-Chat	75	65	79.3	63.0	70.6
开源	miniCPM-2B-sft(new)	72	72	77.3	53.3	68.7
开源	Yi-6B-Chat	73	71	66.0	64.7	68.7
开源	Linly-Chinese-LLaMA2-13B	78	67	67.3	57.0	67.3
开源	ziya2-13b-chat	76	54	71.3	68.0	67.3
开源	Qwen-1_8B-Chat	73	66	75.3	51.3	66.4
商用	minimax	68	61	73.3	63.0	66.3
开源	openbuddy-openllama-3b-v10	64	60	61.3	40.7	56.5
开源	谷歌gemma-2b-it(new)	56	60	60.0	43.3	54.8
开源	Qwen1.5-1.8B-Chat	57	58	52.7	48.0	53.9
开源	Qwen1.5-0.5B-Chat	44	40	60.0	34.7	44.7

⚖️原始评测数据

包含各维度评测集以及大模型输出结果，详见本项目的eval文件目录

评测样本示例

#	分类评测样本	信息抽取评测样本	阅读理解评测样本
1	请分类以下5种水果：香蕉、西瓜、苹果、草莓、葡萄。	HR: 你好，我是XYZ公司的招聘主管。我很高兴地通知你，你已经通过了我们的初步筛选，并且我们希望邀请你来参加面试。候选人：非常感谢，我很高兴收到你们的邀请。请问面试的时间和地点是什么时候和哪里呢？ HR: 面试的时间是下周二上午10点，地点是我们公司位于市中心的办公室。你会在面试前收到一封详细的面试通知邮件，里面会包含面试官的名字、面试时间和地址等信息。候选人：好的，我会准时出席面试的。请问需要我做哪些准备工作呢？ HR: 在面试前，请确保你已经仔细研究了我们公司的业务和文化，并准备好了相关的问题和回答。另外，请务必提前到达面试现场，以便有足够的时间了解我们的公司和环境。候选人：明白了，我会尽最大努力准备好的。非常感谢你的邀请，期待能有机会加入贵公司。 HR: 很高兴能和你通话，我们也期待着能和你见面。祝你好运，并期待下周能见到你。基于以上对话，抽取出其中的时间、地点和事件。	牙医：好的，让我们看看你的牙齿。从你的描述和我们的检查结果来看，你可能有一些牙齦疾病，导致牙齿的神经受到刺激，引起了敏感。此外，这些黑色斑点可能是蛀牙。病人：哦，真的吗？那我该怎么办？牙医：别担心，我们可以为你制定一个治疗计划。我们需要首先治疗牙龈疾病，然后清除蛀牙并填充牙洞。在此过程中，我们将确保您感到舒适，并使用先进的技术和材料来实现最佳效果。病人：好的，谢谢您，医生。那么我什么时候可以开始治疗？牙医：让我们为您安排一个约会。您的治疗将在两天后开始。在此期间，请继续刷牙，使用牙线，并避免吃过于甜腻和酸性的食物和饮料。病人：好的，我会的。再次感谢您，医生。牙医：不用谢，我们会尽最大的努力帮助您恢复健康的牙齿。基于以上对话回答：病人在检查中发现的牙齿问题有哪些？
2	将下列单词按词性分类。狗，追，跑，大人，高兴，树	给定以下文本段落，提取其中的关键信息。今天早上，纽约市长在新闻发布会上宣布了新的计划，旨在减少治安问题。该计划包括增加派遣警察的人数，以及启动社区倡议，以提高居民对警察工作的支持度。	文化艺术报讯国务院办公厅发布关于2023年部分节假日安排的通知，具体内容如下：元旦：2022年12月31日至2023年1月2日放假调休，共3天。春节：1月21日至27日放假调休，共7天。1月28日（星期六）、1月29日（星期日）上班。清明节：4月5日放假，共1天。劳动节：4月29日至5月3日放假调休，共5天。4月23日（星期日）、5月6日（星期六）上班。端午节：6月22日至24日放假调休，共3天。6月25日（星期日）上班。中秋节、国庆节：9月29日至10月6日放假调休，共8天。10月7日（星期六）、10月8日（星期日）上班。基于以上信息回答：2023年五一假期怎么放假。
3	将下列五个词分为两个组别，每个组别都有一个共同点：狗、猫、鸟、鱼、蛇。	在给定的短文中找出三个关键词。西方的哲学历史可上溯至古希腊时期，最重要的哲学流派包括柏拉图学派、亚里士多德学派和斯多葛学派。	基于以下表格，请问张三的考勤情况员工姓名,日期,上班时间,下班时间,是否迟到,是否早退,是否请假张三,1月1日,8:30,17:30,否,否,否李四,1月1日,9:00,18:00,是,否,否王五,1月1日,8:00,16:30,否,是,否赵六,1月1日,8:30,17:00,否,否,是张三,1月2日,8:00,17:00,否,否,否李四,1月2日,8:30,17:30,否,否,否王五,1月2日,9:00,18:00,是,否,否赵六,1月2日,8:30,17:00,否,否,是
4	给定一组文本，将文本分成正面和负面情感。举例文本: 这部电影非常出色，值得推荐。我觉得导演做得很好。这场音乐会真是个灾难，我非常失望。	从以下诗句中提取人物名称：两个黄鹂鸣翠柳，一行白鹭上青天。	对于给定的问答对，判断问题是否被正确回答问题：地球是第几颗行星？答案：地球是第三颗行星。
5	将以下10个单词分类为动物或植物。树木、狮子、玫瑰、草地、松鼠、猴子、蘑菇、兔子、山羊、香蕉	明天天气怎么样？广州明天最冷多少度？广东大后天最暖多少度？北京冷不冷？提取出上述句子中的地理位置实体	根据以下文本回答问题：什么是能量守恒定律？物理学是自然科学的一个重要分支，研究自然界的物质、能量、空间和时间等基本概念。在物理学的研究中，科学家们探索了宇宙的奥秘，从微观粒子到宏观天体的各个方面都进行了深入研究。在物理学中，一个重要的概念是能量守恒定律。能量守恒定律指出，一个孤立系统的总能量在任何时间都是不变的。也就是说，能量不能被创造或摧毁，只能被转化成其他形式。例如，当一个物体被提起并释放时，它的势能被转化为动能，使得物体开始运动。
……	……	……	……

大模型输出结果示例

prompt	chatgpt3.5	百度	……
将下列单词按词性分类。狗，追，跑，大人，高兴，树	好的，以下是这些单词按照词性分类后的结果：名词：狗、大人、树动词：追、跑形容词：高兴	动物类别：狗动作类别：追动作类别：跑情感类别：高兴植物类别：树	……
从以下诗句中提取人物名称：两个黄鹂鸣翠柳，一行白鹭上青天。	这句诗出自唐代诗人杜甫的《绝句》，并没有明确提到人物名称。这句诗主要是在描绘自然景色，通过形象生动的语言来表现春天的美丽景象。诗中提到“两个黄鹂”，“一行白鹭”，他们是动物而非人物名称。黄鹂是一种鸟类，它们身体鲜黄色，嘴巴呈钩形，叫声清脆悦耳；白鹭是另一种水鸟，身体白色，嘴巴细长，善于捕捉鱼类等。杨婉这句诗意境深远，很好地表现了大自然的美丽和神奇。	人物名称：黄鹂、白鹭	……
……	……	……	……

为什么做榜单？

大模型百花齐放，也参差不齐。不少媒体的宣传往往夸大其词，避重就轻，容易混淆视听；而某些公司为了PR，也过分标榜自己大模型的能力，动不动就“达到chatgpt水平”，动不动就“国内第一”。所谓“外行看热闹，内行看门道”，业界急需一股气流，摒弃浮躁，静下心来打磨前沿技术，真真正正用技术实力说话。这就少不了一个公开、公正、公平的大模型评测系统，把各类大模型的优点、不足一一展示出来。如此，大家既能把握当下的发展水平、与国外顶尖技术的差距，也能更加清晰地看明白未来的努力方向，而不被资本热潮、舆论热潮所裹挟。
对于产业界来说，特别是对于不具备大模型研发能力的公司，熟悉大模型的技术边界、高效有针对性地做大模型技术选型，在现如今显得尤为重要。而一个公开、公正、公平的大模型评测系统，恰好能够提供应有的助力，避免重复造轮子，避免因技术栈不同而导致不必要的争论，避免“鸡同鸭讲”。
对于大模型研发人员，包括对大模型技术感兴趣的人、学术界看中实践的人，各类大模型的效果对比，反应出了背后不同技术路线、技术方法的有效性，这就提供了非常好的参考意义。不同大模型的相互参考、借鉴，帮忙大家躲过不必要的坑、避免重复实验带来的资源浪费，有助于整个大模型生态圈的良性高效发展。

#	分类评测样本	信息抽取评测样本	阅读理解评测样本
1	请分类以下5种水果：香蕉、西瓜、苹果、草莓、葡萄。	HR: 你好，我是XYZ公司的招聘主管。我很高兴地通知你，你已经通过了我们的初步筛选，并且我们希望邀请你来参加面试。候选人：非常感谢，我很高兴收到你们的邀请。请问面试的时间和地点是什么时候和哪里呢？ HR: 面试的时间是下周二上午10点，地点是我们公司位于市中心的办公室。你会在面试前收到一封详细的面试通知邮件，里面会包含面试官的名字、面试时间和地址等信息。候选人：好的，我会准时出席面试的。请问需要我做哪些准备工作呢？ HR: 在面试前，请确保你已经仔细研究了我们公司的业务和文化，并准备好了相关的问题和回答。另外，请务必提前到达面试现场，以便有足够的时间了解我们的公司和环境。候选人：明白了，我会尽最大努力准备好的。非常感谢你的邀请，期待能有机会加入贵公司。 HR: 很高兴能和你通话，我们也期待着能和你见面。祝你好运，并期待下周能见到你。基于以上对话，抽取出其中的时间、地点和事件。	牙医：好的，让我们看看你的牙齿。从你的描述和我们的检查结果来看，你可能有一些牙齦疾病，导致牙齿的神经受到刺激，引起了敏感。此外，这些黑色斑点可能是蛀牙。病人：哦，真的吗？那我该怎么办？牙医：别担心，我们可以为你制定一个治疗计划。我们需要首先治疗牙龈疾病，然后清除蛀牙并填充牙洞。在此过程中，我们将确保您感到舒适，并使用先进的技术和材料来实现最佳效果。病人：好的，谢谢您，医生。那么我什么时候可以开始治疗？牙医：让我们为您安排一个约会。您的治疗将在两天后开始。在此期间，请继续刷牙，使用牙线，并避免吃过于甜腻和酸性的食物和饮料。病人：好的，我会的。再次感谢您，医生。牙医：不用谢，我们会尽最大的努力帮助您恢复健康的牙齿。基于以上对话回答：病人在检查中发现的牙齿问题有哪些？
2	将下列单词按词性分类。狗，追，跑，大人，高兴，树	给定以下文本段落，提取其中的关键信息。今天早上，纽约市长在新闻发布会上宣布了新的计划，旨在减少治安问题。该计划包括增加派遣警察的人数，以及启动社区倡议，以提高居民对警察工作的支持度。	文化艺术报讯国务院办公厅发布关于2023年部分节假日安排的通知，具体内容如下：元旦：2022年12月31日至2023年1月2日放假调休，共3天。春节：1月21日至27日放假调休，共7天。1月28日（星期六）、1月29日（星期日）上班。清明节：4月5日放假，共1天。劳动节：4月29日至5月3日放假调休，共5天。4月23日（星期日）、5月6日（星期六）上班。端午节：6月22日至24日放假调休，共3天。6月25日（星期日）上班。中秋节、国庆节：9月29日至10月6日放假调休，共8天。10月7日（星期六）、10月8日（星期日）上班。基于以上信息回答：2023年五一假期怎么放假。
3	将下列五个词分为两个组别，每个组别都有一个共同点：狗、猫、鸟、鱼、蛇。	在给定的短文中找出三个关键词。西方的哲学历史可上溯至古希腊时期，最重要的哲学流派包括柏拉图学派、亚里士多德学派和斯多葛学派。	基于以下表格，请问张三的考勤情况员工姓名,日期,上班时间,下班时间,是否迟到,是否早退,是否请假张三,1月1日,8:30,17:30,否,否,否李四,1月1日,9:00,18:00,是,否,否王五,1月1日,8:00,16:30,否,是,否赵六,1月1日,8:30,17:00,否,否,是张三,1月2日,8:00,17:00,否,否,否李四,1月2日,8:30,17:30,否,否,否王五,1月2日,9:00,18:00,是,否,否赵六,1月2日,8:30,17:00,否,否,是
4	给定一组文本，将文本分成正面和负面情感。举例文本: 这部电影非常出色，值得推荐。我觉得导演做得很好。这场音乐会真是个灾难，我非常失望。	从以下诗句中提取人物名称：两个黄鹂鸣翠柳，一行白鹭上青天。	对于给定的问答对，判断问题是否被正确回答问题：地球是第几颗行星？答案：地球是第三颗行星。
5	将以下10个单词分类为动物或植物。树木、狮子、玫瑰、草地、松鼠、猴子、蘑菇、兔子、山羊、香蕉	明天天气怎么样？广州明天最冷多少度？广东大后天最暖多少度？北京冷不冷？提取出上述句子中的地理位置实体	根据以下文本回答问题：什么是能量守恒定律？物理学是自然科学的一个重要分支，研究自然界的物质、能量、空间和时间等基本概念。在物理学的研究中，科学家们探索了宇宙的奥秘，从微观粒子到宏观天体的各个方面都进行了深入研究。在物理学中，一个重要的概念是能量守恒定律。能量守恒定律指出，一个孤立系统的总能量在任何时间都是不变的。也就是说，能量不能被创造或摧毁，只能被转化成其他形式。例如，当一个物体被提起并释放时，它的势能被转化为动能，使得物体开始运动。
……	……	……	……

dmarkubex/chinese-llm-benchmark