本文整理了大模型技术(LLM)目前发展历程上最重要的100+论文
其中第一列的🌟表示论文重要程度,星级越高表明越重要。
本文仍在继续更新中,当前更新时间2023/08/20
ID | Paper | Introduction |
---|---|---|
1✡✡✡ | Improving Language Understanding by Generative Pre-Training | Open AI GPT原始论⽂提出了解码器架构,以及使用下一个单词预测进行预训练的方法 |
2✡✡✡ | Language Models are Unsupervised Multitask Learners | Open AI GPT2原始论⽂GPT-2和后续的GPT-3论文说明了LLM能够进行零样本(Zero-shot)和少样本学习(Few-shot),指出了大型语言模型的涌现能力 |
3✡ | Emergent Abilities of Large Language Models | Google 22年8⽉份,探讨⼤语⾔模型的涌现能⼒ |
4✡✡✡✡✡ | Language Models are Few-Shot Learners | Open AI GPT3原始论⽂GPT-3仍然是训练当下大语言模型(如ChatGPT)的常用基线和基础模型 |
5✡✡✡✡ | Training language models to follow instructions with human feedback | Open AI InstructGPT原始论⽂,也被称为描述ChatGPT背后想法的论文研究人员使用了一种强化学习机制,其中包括人类反馈强化学习方法(RLHF)研究人员从预训练的GPT-3基础模型开始,使用监督学习对人类生成的提示与模型回复进行进一步微调;然后要求人类对模型输出进行排名,以训练奖励模型;最后使用奖励模型通过PPO使用强化学习来更新预训练和微调的GPT-3模型。 |
6 | Evaluating Large Language Models Trained on Code | Codex原始论⽂ |
7✡ | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Google T5模型,区别于BERT的编码器架构与GPT的解码器架构,T5是transformer的encoder-decoder架构,这是解读之⼀ |
8✡ | GPT-4 Technical Report | GPT4的技术报告,增加了多模态能⼒ |
核心基石, The Beganing of Story.
ID | Paper | Introduction |
---|---|---|
1✡✡✡✡✡ | Attention Is All You Need | Transformer原始论⽂提出了由编码器和解码器部分组成的原始Transformer架构,并且文中提出的概念,如缩放点积(scale dot product)注意力机制,多头注意块、位置输入编码等 |
"in context learning"(上下文学习)是指在特定上下文环境中学习的机器学习方法。它考虑到文本、语音、图像、视频等数据的上下文环境,以及数据之间的关系和上下文信息的影响。在这种方法中,学习算法会利用上下文信息来提高预测和分类的准确性和有效性。例如,在自然语言处理中,上下文学习可以帮助机器学习算法更好地理解一个句子中的词语含义和关系。
在in-context learning中,模型不根据下游任务调整参数,而是将下游任务的输入输出接起来之后作为prompt,引导模型根据测试集的输入生成预测结果。该方法的表现可以大幅超越零监督学习,并给大模型高效运用提供了新的思路。
in-context learning学习的并不是输入与标注之间的关联,而是通过展示数据形式,来激活预训练模型的能力。也就是提示中的示例使模型可以进入相应的任务模式,然后执行任务。
人类在遇到一系列问题时所产生的推理步骤,而它们的表现形式就是一系列的短句子(比如说在背景介绍中所提到的遇到数学问题时所产生的中间推理步骤)
ID | Paper | Introduction |
---|---|---|
1✡✡✡ | Chain-of-Thought Prompting Elicits Reasoning in Large Language Models | CoT原始论⽂,印证了instructGPT从22年1⽉份之前 就开始迭代了 |
2✡✡✡ | Large Language Models are Zero-Shot Reasoners | 来⾃东京⼤学和⾕歌的⼯作,关于预训练⼤型语⾔模型的推理能⼒的探究,chain of thought(CoT)能够显著的提升大模型的推理能力,而现有研究工作大都研究的是few shot设置下CoT,因此本文主要研究zero shot设置下的大模型推理能力。解读。“Let's think step by step”的梗即来源于此篇论⽂ |
3✡ | Automatic Chain of thought Prompting in Large Language Models | auto-CoT |
4✡ | Multimodal Chain-of-Thought Reasoning in Language Models | 23年2⽉,亚⻢逊的研究者在这篇论⽂⾥提出了基于多模态思维链技术改进语⾔模型复杂推理能⼒的** |
高效参数微调(Parameter-Efficient Fine-Tuning)
ID | Paper | Introduction |
---|---|---|
1✡✡✡✡ | Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning | 综述回顾了40多篇关于参数高效微调方法,包括prefix调整、adapter和LoRA等。Parameter-Efficient Fine-Tuning (PEFT) |
2✡✡✡✡✡ | LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS | LoRa 微调方法论文在大型数据集上预训练的现代大型语言模型展现出了涌现能力,不过如果想提高Transformer在特定领域数据和特定任务上的性能,那么就需要对Transformer进行微调(SFT)。低秩自适应(LoRA)是一种参数高效(parameter-efficient-PEFT)的方式来微调大型语言模型,相比其他方法,LoRA既优雅又非常通用,可以应用于其他类型的模型。虽然预训练模型的权重在预训练任务上具有满秩,但LoRA作者指出,预训练的大型语言模型在适应新任务时具有较低的「内在维度」。因此,LoRA背后的主要**是将权重变化ΔW分解为更低秩的表示,即更高效的参数。 |
3✡✡✡ | Prefix-Tuning: Optimizing Continuous Prompts for Generation | Prefix-tuning 微调方法论文 |
4✡✡ | GPT Understands, Too | p-tuning V1论⽂ |
5✡✡✡ | P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks | p-tuning V2论⽂ |
6✡✡✡ | The Power of Scale for Parameter-Efficient Prompt Tuning | Prompt Tuning |
ID | Paper | Introduction |
---|---|---|
1✡ | Distributed Representations of Sentences and Documents | Mikolov⾸次提出 Word2vec |
2✡ | Efficient estimation of word representations in vector space | Mikolov专⻔讲训练 Word2vec 中的两个trick:hierarchical softmax 和 negative sampling |
3✡ | word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method | Yoav Goldberg关于word2vec的论⽂,对 negative-sampling 的公式推导⾮常完备 |
4✡ | word2vec Parameter Learning Explained | Xin Rong关于word2vec的论⽂,⾮常不错 |
5✡✡ | ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING | 旋转位置嵌⼊(RoPE)论⽂,这是苏剑林本⼈对它的解读 |
6✡✡ | Linearized Relative Positional Encoding | 统⼀了适⽤于linear transformer的相对 位置编码 |
7✡✡✡ | SEARCHING FOR ACTIVATION FUNCTIONS | SwiGLU的原始论⽂ |
8✡ | The Natural Language Decathlon: Multitask Learning as Question Answering | GPT-1、GPT-2论⽂的引⽤⽂献,Salesforce发表的⼀篇⽂章,写出了多任务单模型的根本** |
9✡✡ | ZeRO: Memory Optimizations Toward Training Trillion Parameter Models | ZeRO是微软deepspeed的核⼼,这是关于ZeRO的解读之⼀ |
10✡ | Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM | Megatron-LM 论⽂原始论⽂对相关技术的解读:千亿参数开源⼤模型 BLOOM 背后的技术 |
11✡ | Training Deep Nets with Sublinear Memory Cost | 提出了一种减少深度神经网络训练时内存消耗的系统性方法。 |
12✡✡ | FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness | Flash attention 这是其解读之⼀虽然大多数transformer论文都没有替换原始的缩放点积机制来改进自注意力,但FlashAttention是其中最常引用的一种机制。 |
13✡ | Fast Transformer Decoding: One Write-Head is All You Need | Muti Query Attention论⽂,MQA 是 19 年提出的⼀种新的 Attention 机制,其能够在保证模型效果的同时加快 decoder ⽣成 token 的速度,这是其解读之⼀ |
14✡✡ | GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head Checkpoints | GQALLaMA-2 使用了该技术来加速 |
15✡ | Cramming: Training a Language Model on a Single GPU in One Day | 在这篇论文中,研究人员使用单个GPU用了24个小时训练了一个遮罩语言模型/编码器风格的语言模型,在单个GPU上进行24小时,相比之下,2018年BERT刚提出来的时候,在16个TPU上训练了四天。有趣的结论是,虽然较小的模型具有更高的吞吐量,但小模型的学习效率也比较低,所以较大的模型不需要更多的训练时间来达到特定的预测性能阈值。 |
16✡✡ | Scaling Language Models: Methods, Analysis & Insights from Training Gopher | Gopher论文中有大量的分析来理解大型语言模型的训练过程。研究人员在3000亿个token上训练了一个80层、2800亿参数的模型,还提出了一些架构上的修改,如使用RMSNorm(均方根归一化)而非LayerNorm(层归一化)。LayerNorm和RMSNorm都优于BatchNorm,因为它们并不依赖于batch size,也不需要同步,对于在batch size较小的分布式设置中是一个优势,而且RMSNorm通常被认为可以稳定更深层次架构中的训练。这篇论文的主要重点是不同尺度(sacle)模型在任务性能上的分析。对152个不同任务的评估表明,增加模型尺寸对理解、事实核查和有毒语言识别等任务的益处最大,而与逻辑和数学推理相关的任务从架构扩展中受益较少。 |
17✡✡ | Training Compute-Optimal Large Language Models | 论文中定义了大型语言模型训练的线性缩放律(linear scaling low),例如虽然Chinchilla的大小只有GPT-3的一半,但它的表现优于GPT-3,因为它是在1.4万亿(而不是3000亿)个token上训练的。换句话说,训练语料中token的数量与模型大小一样重要。 |
18 | Transformer-XL: Attentive language models beyond a fixed-length context |
ID | Paper | Introduction |
---|---|---|
1✡✡ | Deep Residual Learning for Image Recognition | ResNet论⽂这是李沐针对ResNet的解读,另 这是李沐针对⼀些paper的解读列表 |
2✡✡ | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | BERT论文提出了遮罩语言建模(Mask LM),并且下一句预测(next-sentence prediction)仍然是一种有影响力的解码器架构,不过后续的RoberTa删除了下一句预测任务,简化了预训练目标。 |
3✡✡ | BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension | BERT类语言模型主要关注编码器,通常是预测建模任务的首选,而GPT类型的解码器风格的语言模型在文本生成方面更好。为了同时利用二者的优势,BART论文结合了编码器和解码器部分。 |
4✡✡ | Efficient Transformers: A Survey | 综述报告,关于提高Transformer效率的各种技术-1。主要针对一类X-former模型,例如Reformer, Linformer, Performer, Longformer为例,这些对原版Transformer做了改进,提高了其计算和内存的效率。 |
5✡✡ | A Survey on Efficient Training of Transformers | 综述报告,关于提高Transformer效率的各种技术。 |
6✡✡ | Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond | 综述报告,说明了不同的架构是如何演变的,提供了LLM family tree除了讨论BERT风格的遮罩语言模型(编码器)和GPT风格的自回归语言模型(解码器)之外,还提供了关于预训练和微调数据的讨论和指导。 |
7✡✡ | Unifying Large Language Models and Knowledge Graphs: A Roadmap | LLM与知识图谱的结合实战 |
8✡✡ | A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT | 预训练基础模型的演变史 |
9✡✡ | Pre-Trained Models: Past, Present and Future | 21年1⽉初在CCF启智会⽀持下,⽂继荣、唐杰和⻩⺠烈三位⽼师召集了以预训练模型为主题的闭⻔研讨会,此后22位⽼师和同学经过近半年准备,共同形成了这篇43⻚的综述和观点⽂章 Pre-Trained Models: Past, Present and Future |
ID | Paper | Introduction |
---|---|---|
1✡✡ | LaMDA: Language Models for Dialog Applications | Google LaMDA模型,参数137B,transformer decoder架构,这是简要解读之⼀在微调阶段 使⽤58K的对话数据,过程类似真⼈的对话过程,给定⼀个Query,⽐如 How old is Rafael Nadal? ,如果⼈知道答案,那么直接回答35岁即可,如果不知道,则需要去 Research ⼀下,借助搜索引擎找到答案,然后再回答35岁ChatGPT****的替代方案 |
2✡ | PaLM: Scaling Language Modeling with Pathways | 22年3⽉,Google的Barham等⼈发布了Pathways系统,⽤于更⾼效地训练⼤型模型;Pathways 的愿景是实现⼀个很接近⼈脑的框架:⼀个模型,可以做多任务,多模态且在做任务时,只是 sparsely activated,只使⽤⼀部分的参数22年4⽉,Google发布PaLM模型,基于Transformer decoder架构,参数规模达540B,使⽤multi-query注意⼒、SwiGLU激活函数以及RoPE位置嵌⼊,这是翻译之⼀PaLM⾸次展示了Pathways的⼤规模使⽤——能够以⾼效的⽅式在数千或数万个加速器芯⽚上训练⼀个模型 |
3✡ | Constitutional AI: Harmlessness from AI Feedback | ChatGPT的竞品,ChatGPT⽤⼈类偏好训练RM再RL(即RLHF),Claude则基于AI偏好模型训练RM再RL(即RLAIF) ,研究人员将对齐**更进一步,提出了一种创建无害AI系统的训练机制,提出了一种基于规则列表(由人类提供)的自训练机制,而非人类监督。从技术上来说,Consitutinal AI使用的是AI反馈而非人类反馈。 |
4✡ | Improving alignment of dialogue agents via targeted human judgements | DeepMind的Sparrow,这个⼯作发表时间稍晚于instructGPT,其⼤致的技术思路和框架与 instructGPT 的三阶段基本类似,但Sparrow 中把奖励模型分为两个不同 RM 的思路ChatGPT****的替代方案 |
5✡ | Crosslingual Generalization through Multitask Finetuning | ChatGPT****的替代方案 |
6✡ | LLaMA: Open and Efficient Foundation Language Models | 2023年2⽉24⽇Meta发布了全新的65B参数⼤语⾔模型LLaMA,开源,⼤部分任务的效果好于2020年的GPT-3 |
7✡✡✡ | Alpaca: A Strong Open-Source Instruction-Following Model | alpaca论文https://github.com/tatsu-lab/stanford_alpaca |
8✡✡✡ | Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | Vicuna论文 |
9✡✡✡ | GLM: General Language Model Pretraining with Autoregressive Blank Infilling | https://zhuanlan.zhihu.com/p/6294619542022年5⽉,正式提出了GLM框架 |
10✡✡✡ | GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL | GLM-130B便是基于的GLM框架的⼤语⾔模型 |
11✡✡✡✡✡ | ChatGLM-6B | ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答,更多信息请参考我们的博客。欢迎通过 chatglm.cn 体验更大规模的 ChatGLM 模型。 |
12✡ | Opt: Open pre-trained transformer language models | GPT开源平替 |
13✡ | BLOOM: A 176B-Parameter Open-Access Multilingual Language Model | GPT开源平替 |
14✡ | UL2: Unifying Language Learning Paradigms | GPT开源平替 |
15✡ | Large Language Models Encode Clinical Knowledge | 从palm - flan palm(指令微调palm模型) - instruction prompt-tuned Flan-PaLM(提示指令调优flan-palm模型)的过程中,通过instruction prompt-tuned Flan-PaLM得到医疗问答模型med-palm,⽽提出了instruction prompt tuning |
16✡ | Towards Expert-Level Medical Question Answering with Large Language Models | 继上篇论⽂提出medpalm之后,5⽉16⽇,Google Research和DeepMind发布了Med-PaLM 2,相⽐第⼀代最显著的改进是基座模型换成了Google的最新⼤模型PaLM2(据说有着340b参数,⽤于训练的token数达3.6万亿) |
17✡ | ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge | 医疗ChatDoctor论⽂ |
18✡✡ | BloombergGPT: A Large Language Model for Finance | ⾦融BloombergGPT论⽂,这是其解读之⼀ |
19✡ | COLT5: Faster Long-Range Transformers with Conditional Computation | |
20✡ | ProtTrans:Towards Cracking the Language of Life’s Code Through Self-Supervised Deep Learning and High Performance Computing | |
21✡ | Highly accurate protein structure prediction with AlphaFold | |
22✡ | Large Language Models Generate Functional Protein Sequences Across Diverse Families | |
23✡ | Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling | Pythia是一组开源的大型语言模型,参数量从7千万到120亿不等,以用于研究大型语言模型在训练过程中的演变模型架构类似于GPT-3,但包括一些组件改进,例如用Flash Attention和Rotary Positional Embeddings。Pythia研究的主要结论如下:在重复数据上进行训练(超过1个epoch)不会提升或降低性能。训练顺序不会影响记忆。这个结论让我们无法通过重新排序训练数据来缓解不希望的逐字记忆问题。预训练词频影响任务性能。例如,对于更频繁的术语,少样本学习往往准确度更高。将batch size加倍可以将训练时间减半,但不会影响收敛。 |