智源评测报告

关于本书

本技术报告详细介绍了智源人工智能研究院历经3个月筹备的大模型评测，对评测方法、流程和结果进行系统说明。

本次评测共使用超8万道考题，其中含4000+原创未公开主观题，对全球40余家大模型企业或研究团队的共计140余个大模型（其中108个开源模型，和33个闭源模型）进行了评测，包括大语言模型（对话模型和基础模型）、视觉语言大模型、文生图模型及文生视频模型。同时，首次联合权威教育机构进行大模型K12学科评测，将模型与人类学生的结果进行对比分析，为准确把握模型能力进展提供参考。

本次评测结果显示，国内大语言模型在中文语境下的综合表现基本接近国际一流水平，但存在明显的能力不均衡情况；视觉语言模型（图文问答）开源模型与商业模型平分秋色，深度专业图理解是需突破的短板，国产模型在图文问答有不错表现；文生图模型的客观评测指标可靠性不足，国内外模型能力差异点显著；文生视频模型整体能力仍需提升，Sora显示出明显优势。大模型在学科测验上的最好表现尚未达到人类学生平均水平，学科上文科类学科好于理科类学科表现，图表理解能力仍有很大提升空间。

概要

全文内容 pdf (updated 2024-07-13)

引用信息

@book{flageval2024,
title = {AI大模型能力全景扫描},
year = {2024},
author = {FlagEval},
address = {北京},
url = {https://flagopen.github.io/FlagEval_Report/},
}

反馈意见

如果您有任何意见、评论以及建议（先确认最新版本中是否已经修正），请通过GitHub的Issues页面进行反馈。如果错误比较重要，我会在本书中进行致谢。

反馈意见包括但不限于：（因为分开排版关系，页码错误请忽略。）

打字错误
描述错误: 比如“感知器是非线性分类器”
评论
建议

非常感谢！

flageval-baai/FlagEval_Report

智源评测报告

关于本书

概要

引用信息

反馈意见