智源评测报告

作者:FlagEval

关于本书

本技术报告详细介绍了智源人工智能研究院历经3个月筹备的大模型评测,对评测方法、流程和结果进行系统说明。

本次评测共使用超8万道考题,其中含4000+原创未公开主观题,对全球40余家大模型企业或研究团队的共计140余个大模型(其中108个开源模型,和33个闭源模型)进行了评测,包括大语言模型(对话模型和基础模型)、视觉语言大模型、文生图模型及文生视频模型。同时,首次联合权威教育机构进行大模型K12学科评测,将模型与人类学生的结果进行对比分析,为准确把握模型能力进展提供参考。

本次评测结果显示,国内大语言模型在中文语境下的综合表现基本接近国际一流水平,但存在明显的能力不均衡情况;视觉语言模型(图文问答)开源模型与商业模型平分秋色,深度专业图理解是需突破的短板,国产模型在图文问答有不错表现;文生图模型的客观评测指标可靠性不足,国内外模型能力差异点显著;文生视频模型整体能力仍需提升,Sora显示出明显优势。大模型在学科测验上的最好表现尚未达到人类学生平均水平,学科上文科类学科好于理科类学科表现,图表理解能力仍有很大提升空间。

概要

全文内容 pdf (updated 2024-07-13)

引用信息

@book{flageval2024,
title = {AI大模型能力全景扫描},
year = {2024},
author = {FlagEval},
address = {北京},
url = {https://flagopen.github.io/FlagEval_Report/},
}

反馈意见

如果您有任何意见、评论以及建议(先确认最新版本中是否已经修正),请通过GitHub的Issues页面进行反馈。如果错误比较重要,我会在本书中进行致谢。

反馈意见包括但不限于:(因为分开排版关系,页码错误请忽略。)

  • 打字错误
  • 描述错误: 比如“感知器是非线性分类器”
  • 评论
  • 建议

非常感谢!