什么是智能?真正的智能,应该是具备推理能力,能验证假设,且能为未来做准备的。合适的测评帮助我们理解智能的水平,就像人类的IQ测试。评测LLM帮助我们更好的理解LLM的优势和劣势,用于指导我们应该如何与LLM交互,以获得一个好的结果。
- GPT-4
- GPT-3.5-turbo
Meta公司,原名Facebook,发布的。2023-07-19,发布免费可商用的Llama2。
- Llama2-70B
- Llama2-13B
- Llama2-7B
- Llama 1
Anthropic公司研制的
- Claude-v1
- Claude-instant-v1
由多家研究机构合作推出的一个开源大语言模型,其研究团队来自于UC Berkeley、CMU、斯坦福、US San Dego和MBZUAI。该系列的模型是基于Meta LLaMA在SharedGPT开放数据集上微调得到。因此,模型本身受限于LLaMA的非商用限制以及OpenAI对ChatGPT共享数据集的限制。官方宣称该模型水平接近ChatGPT,并且超过其它开源的模型。
Vicuna官网:https://lmsys.org/blog/2023-03-30-vicuna/ Vicuna在线使用:https://chat.lmsys.org/?arena
- Vicuna-33B,模型卡:https://www.datalearner.com/ai-models/pretrained-models/Vicuna-33B
- Vicuna-13B,模型卡:https://www.datalearner.com/ai-models/pretrained-models/Vicuna-13B
- Vicuna-13B,模型卡:https://www.datalearner.com/ai-models/pretrained-models/Vicuna-7B
LLM模型被设计来解决各种任务。LLM评测数据集,用于测试和对比不同的LLM模型在各种任务上的效果。比如,GLUE和SuperGLUE,旨在模拟真实世界的场景,覆盖各种任务,比如文本分类、机器翻译、阅读理解、对话生成。
评测基准:
- chatbot arena,大模型竞技平台,伯克利大学,评测平台:https://lmsys.org/ 评测榜单:https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- MT-Bench,主要评估多轮问答的能力。
- HELM
- Big-Bench
- MME
- KoLA
- DynaBench
- MMLU
- GLUE-X,旨在评估NLP模型在OOD场景下的robustness。
- PromptBench,用于增强LLM微调的方法。显示LLM对adversial prompt很敏感,从而需要careful prompt以达到一个好的效果。
- PandaLM
- MultiMedQA
- C-Eval
- M3Exam
- GAOKAO_Bench
- SOCKET
- MATH
- APPS
- CUAD
- CVALUES
在不同类型的任务上进行评测,包括Natural Language Processing Tasks、Robustness、Ethic、Bias、Trustworthiness、Social Science、Natural Science and Engineering、Medical Applications、Agent Applications和Other Applications。
GLUE: https://gluebenchmark.com/leaderboard SuperGLUE: https://super.gluebenchmark.com/tasks
一开始LLM的目标就是去提升各种NLP任务的表现,包括理解式的和生成式的。因此,就有很多关于这些任务的评测研究。
自然语言理解,也包含很多不同的任务,皆旨在对输入的文本能有一个更好的理解。
Sentiment analysis
情感分析可以看作分类任务,是一个很流行的评测方向。模型在这个任务上的表现通常都很好,ChatGPT的表现比传统的模型效果更好,趋近于GPT-3.5的结果。对于细粒度的情感和情绪的原因分析,ChatGPT也表现超凡。 对于low-resource的情况,LLM也明显由于小型LM,但相对不是那么好,这应该是未来的一个研究方向。
Text classification
GPT-4有明显的提升,但和人的判断还是有距离。总之,LLM在语义理解的任务上表现是糟糕的。
Social knowledge understanding
对于社交知识理解,有人发现一个经有监督的精调的小模型,比如BERT,效果会明显好于zero-shot的LLM,比如GPT、GPT-J-6B。
推理任务,是AI的一个大的挑战,模型不仅要理解输入的文本,还要去推导最终的答案,因为答案没法一下子给出来。
mathematical reasoning
ChatGPT在数学推理上有不错的表现,在很多任务上都超过了GPT-3.5。但是要做到精通,仍需要继续优化。
symbolic reasoning
在符号推理任务上,ChatGPT的表现比GPT-3.5要差,因为ChatGPT倾向于不确定的回答,导致效果较差。
commonsense reasoning
ChatGPT不太擅长常识推理,但比non-text情感推理要好。
logical reasoning
在逻辑推理上,ChatGPT和GPT-3.5都优于传统的模型。然而,两者都面临OOD问题,ChatGPT表现的比GPT-3.5、BARD等要差。因为ChatGPT是设计用来精确、理性聊天的。
spatial reasoning
ChatGPT不擅长空间推理。
temporal reasoning
ChatGPT擅长时间推理。Llama-65B,在date推理上是开源LLM中robust最好的,逼近code-davinci-002。
multi-hop reasoning
与其他LLM一样,ChatGPT不擅长多跳推理。
domain-specific reasoning
zero-shot的InstructGPT和Codex可以处理复杂的医学推理任务,但仍然有很大的提升空间。
summarization
question answering