LLM_Paper_Reading

本文整理了大模型技术(LLM)目前发展历程上最重要的100+论文

其中第一列的🌟表示论文重要程度,星级越高表明越重要。

本文仍在继续更新中,当前更新时间2023/08/20

  1. OpenAI/Google 基础语⾔⼤模型

ID Paper Introduction
1✡✡✡ Improving Language Understanding by Generative Pre-Training Open AI GPT原始论⽂提出了解码器架构,以及使用下一个单词预测进行预训练的方法
2✡✡✡ Language Models are Unsupervised Multitask Learners Open AI GPT2原始论⽂GPT-2和后续的GPT-3论文说明了LLM能够进行零样本(Zero-shot)和少样本学习(Few-shot),指出了大型语言模型的涌现能力
3✡ Emergent Abilities of Large Language Models Google 22年8⽉份,探讨⼤语⾔模型的涌现能⼒
4✡✡✡✡✡ Language Models are Few-Shot Learners Open AI GPT3原始论⽂GPT-3仍然是训练当下大语言模型(如ChatGPT)的常用基线和基础模型
5✡✡✡✡ Training language models to follow instructions with human feedback Open AI InstructGPT原始论⽂,也被称为描述ChatGPT背后想法的论文研究人员使用了一种强化学习机制,其中包括人类反馈强化学习方法(RLHF)研究人员从预训练的GPT-3基础模型开始,使用监督学习对人类生成的提示与模型回复进行进一步微调;然后要求人类对模型输出进行排名,以训练奖励模型;最后使用奖励模型通过PPO使用强化学习来更新预训练和微调的GPT-3模型。
6 Evaluating Large Language Models Trained on Code Codex原始论⽂
7✡ Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Google T5模型,区别于BERT的编码器架构与GPT的解码器架构,T5是transformer的encoder-decoder架构,这是解读之⼀
8✡ GPT-4 Technical Report GPT4的技术报告,增加了多模态能⼒
  1. LLM的关键技术:

核心基石, The Beganing of Story.

ID Paper Introduction
1✡✡✡✡✡ Attention Is All You Need Transformer原始论⽂提出了由编码器和解码器部分组成的原始Transformer架构,并且文中提出的概念,如缩放点积(scale dot product)注意力机制,多头注意块、位置输入编码等
  1. ICL

"in context learning"(上下文学习)是指在特定上下文环境中学习的机器学习方法。它考虑到文本、语音、图像、视频等数据的上下文环境,以及数据之间的关系和上下文信息的影响。在这种方法中,学习算法会利用上下文信息来提高预测和分类的准确性和有效性。例如,在自然语言处理中,上下文学习可以帮助机器学习算法更好地理解一个句子中的词语含义和关系。

在in-context learning中,模型不根据下游任务调整参数,而是将下游任务的输入输出接起来之后作为prompt,引导模型根据测试集的输入生成预测结果。该方法的表现可以大幅超越零监督学习,并给大模型高效运用提供了新的思路。

in-context learning学习的并不是输入与标注之间的关联,而是通过展示数据形式,来激活预训练模型的能力。也就是提示中的示例使模型可以进入相应的任务模式,然后执行任务。

ID Paper Introduction
1✡✡✡ A Survey on In-context Learning ICL 综述 **Paper List for In-context Learning**in-context learning 研究梳理:In-Context Learning到底有没有Learning?
2✡ Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? 当某些标签错误时,模型仍然可以做出正确的预测。这表明模型更受提示的 [格式] 影响,而不是提示的 [意义] 。作者Sewon对这部分内容还做了其他研究Noisy Channel Language Model Prompting for Few-Shot Text Classification MetaICL: Learning to Learn In Context
3✡ Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers 这篇⽂章则将ICL看作是⼀种隐式的Fine-tuning,代码地址:https://github.com/microsoft/LMOps[论⽂的解读之⼀:https://mp.weixin.qq.com/s/sTTRl7QPyFDYVw4Jwzn9dQ](https://mp.weixin.qq.com/s?__biz=MzA4MjY4NTk0NQ==&mid=2247508429&idx=1&sn=aed7acb81b941db32cccede3c69b7350&scene=21#wechat_redirect)
4✡ Meta-learning via Language Model In-context Tuning 将元学习引入到In-Context Learning中
5✡ WHAT LEARNING ALGORITHM IS IN-CONTEXT LEARNING? INVESTIGATIONS WITH LINEAR MODELS 神经序列模型,特别是转化器,表现出显著的语境中学习的能力
5✡✡✡✡ Finetuned Language Models Are Zero-Shot Learners 21年9⽉,Google提出FLAN⼤模型,提出Instruct Learning
6✡✡ The Flan Collection: Designing Data and Methods for Effective Instruction Tuning 谷歌介绍大模型指令调优的相关工作,解读
7✡✡✡✡ Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing CMU 相关资源 http://pretrain.nlpedia.ai/NLP 的范式演进历程大体经历了这样四个阶段:特征工程—>深度学习—>预训练+精调—>PromptPrompt 是研究者们为了下游任务设计出来的一种输入形式或模板,它能够帮助预训练模型“回忆”起自己在预训练时“学习”到的东西。本文调查并组织了NLP中的一个新范式的研究工作:“基于 prompt 的学习”。
8✡✡ SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions 代码地址 https://github.com/yizhongw/self-instruct解读1 https://zhuanlan.zhihu.com/p/614916562解读2 https://zhuanlan.zhihu.com/p/6115704013⽉中旬,斯坦福发布Alpaca:只花100美元,⼈⼈都可微调Meta家70亿参数的LLaMA⼤模型⽽斯坦福团队微调LLaMA的⽅法,便是来⾃华盛顿⼤学Yizhong Wang等去年底提出的这个Self-Instruct具体⽽⾔,论⽂中提出,⾸先从⾃⽣成指令种⼦集中的175个⼈⼯编写的「指令-输出」对开始,然后,提示text-davinci-003使⽤种⼦集作为上下⽂示例来⽣成更多指令⽽斯坦福版Alpaca,就是花了不到500美元使⽤OpenAI API⽣成了5.2万个这样的示例微调LLaMA搞出来的
9✡ Offsite-Tuning: Transfer Learning without Full Model

2.2CoT

人类在遇到一系列问题时所产生的推理步骤,而它们的表现形式就是一系列的短句子(比如说在背景介绍中所提到的遇到数学问题时所产生的中间推理步骤)

ID Paper Introduction
1✡✡✡ Chain-of-Thought Prompting Elicits Reasoning in Large Language Models CoT原始论⽂,印证了instructGPT从22年1⽉份之前 就开始迭代了
2✡✡✡ Large Language Models are Zero-Shot Reasoners 来⾃东京⼤学和⾕歌的⼯作,关于预训练⼤型语⾔模型的推理能⼒的探究,chain of thought(CoT)能够显著的提升大模型的推理能力,而现有研究工作大都研究的是few shot设置下CoT,因此本文主要研究zero shot设置下的大模型推理能力。解读。“Let's think step by step”的梗即来源于此篇论⽂
3✡ Automatic Chain of thought Prompting in Large Language Models auto-CoT
4✡ Multimodal Chain-of-Thought Reasoning in Language Models 23年2⽉,亚⻢逊的研究者在这篇论⽂⾥提出了基于多模态思维链技术改进语⾔模型复杂推理能⼒的**

2.3RLHF

ID Paper Introduction
1✡✡✡✡✡ Fine-Tuning Language Models from Human Preferences RLHF原始论⽂ 解读 代码 https://github.com/openai/lm-human-preferences相关论文包括在现有 LM 前的 RLHF 进展和基于当前 LM 的 RLHF 工作:TAMER: Training an Agent Manually via Evaluative Reinforcement (Knox and Stone 2008)Interactive Learning from Policy-Dependent Human Feedback (MacGlashan et al. 2017)Deep TAMER: Interactive Agent Shaping in High-Dimensional State SpacesLearning to summarize with human feedback (Stiennon et al., 2020)Recursively Summarizing Books with Human Feedback (OpenAI Alignment Team 2021)WebGPT: Browser-assisted question-answering with human feedback (OpenAI, 2021)GopherCite: Teaching language models to support answers with verified quotes (Menick et al. 2022)Sparrow: Improving alignment of dialogue agents via targeted human judgements (Glaese et al. 2022)ChatGPT: Optimizing Language Models for Dialogue (OpenAI 2022)Scaling Laws for Reward Model Overoptimization (Gao et al. 2022)Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Anthropic, 2022)Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned (Ganguli et al. 2022)Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning (Cohen at al. 2022)Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization (Ramamurthy and Ammanabrolu et al. 2022)Kojima et al. 2021Suhr and Artzi 2022Sokolov et al. 2016, Gao et al. 2022Ranzato et al. 2015Bahdanau et al. 2016Nguyen et al. 2017
2✡✡ Deep Reinforcement Learning from Human Preferences 最早提出的RLHF方法
3✡ Trust Region Policy Optimization TRPO论文,早于PPO方法,解读
4✡ Asynchronous Methods for Deep Reinforcement Learning 引入了策略梯度方法作为基于深度学习的RL中Q学习的替代方案。
5✡✡ Proximal Policy Optimization Algorithms 2017年,OpenAI发布的PPO原始论⽂提出了一种改进的基于近似策略的强化学习过程,比上面的策略优化算法更具数据效率和可扩展性。
6✡ Fine-Tuning Language Models from Human Preferences 论文说明了PPO的概念和对预训练语言模型的奖励学习,包括KL正则化,以防止策略与自然语言偏离太远
7✡ Learning to Summarize from Human Feedback 论文提出了常用的RLHF三步程序:预训练GPT-3以有监督的方式进行微调同样以有监督的方式训练奖励模型,然后使用具有邻近策略优化的奖励模型来训练微调模型。论文还表明,与常规有监督学习相比,具有近似策略优化的强化学习可以产生更好的模型。
8✡ Scaling Instruction-Finetuned Language Models 微调PaLM-540B(2022年10⽉)从三个⽅⾯改变指令微调,⼀是改变模型参数,提升到了540B,⼆是增加到了1836个微调任务,三是加上Chain of thought微调的数据
Self-Instruct: Aligning Language Model with Self Generated Instruction 指令微调是从GPT-3之类的预训练基础模型发展到ChatGPT类更强大语言模型的关键技术。Self-Instruct是一种几乎无需标注,即可将预训练的LLM与指令对齐的方法,总共包括4个步骤:用一组人工编写的指令和样本指令作为种子任务池。使用预训练的语言模型(如GPT-3)来确定任务类别。给定新指令,让预训练的语言模型生成回复。在将回复添加到任务池之前,收集、修剪和筛选这些响应。在实践中,整个过程可以基于ROUGE来评分,可以认为Self-Instruct-finetuned LLM的性能优于GPT-3基础LLM,并且可以与在大型人类编写的指令集上预训练的LLM竞争,self-instruct也可以使已经根据人类指令进行微调的LLM受益。当然,评估语言模型的黄金标准是询问人类评分员。基于人类评估,Self-Instruct优于基本LLM和以监督方式在人类指令数据集上训练的LLM(SuperNI,T0 Trainer),但有趣的是,Self-Instruct并没有优于通过人工反馈强化学习(RLHF)训练的方法。
Illustrating Reinforcement Learning from Human Feedback huggingface解读RHLF算法
Augmenting Reinforcement Learning with Human Feedback RHLF算法论文

2.4 PEFT

高效参数微调(Parameter-Efficient Fine-Tuning)

ID Paper Introduction
1✡✡✡✡ Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning 综述回顾了40多篇关于参数高效微调方法,包括prefix调整、adapter和LoRA等。Parameter-Efficient Fine-Tuning (PEFT)
2✡✡✡✡✡ LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS LoRa 微调方法论文在大型数据集上预训练的现代大型语言模型展现出了涌现能力,不过如果想提高Transformer在特定领域数据和特定任务上的性能,那么就需要对Transformer进行微调(SFT)。低秩自适应(LoRA)是一种参数高效(parameter-efficient-PEFT)的方式来微调大型语言模型,相比其他方法,LoRA既优雅又非常通用,可以应用于其他类型的模型。虽然预训练模型的权重在预训练任务上具有满秩,但LoRA作者指出,预训练的大型语言模型在适应新任务时具有较低的「内在维度」。因此,LoRA背后的主要**是将权重变化ΔW分解为更低秩的表示,即更高效的参数。
3✡✡✡ Prefix-Tuning: Optimizing Continuous Prompts for Generation Prefix-tuning 微调方法论文
4✡✡ GPT Understands, Too p-tuning V1论⽂
5✡✡✡ P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks p-tuning V2论⽂
6✡✡✡ The Power of Scale for Parameter-Efficient Prompt Tuning Prompt Tuning

2.5 Embedding/位置编码/激活函数/attention加速

ID Paper Introduction
1✡ Distributed Representations of Sentences and Documents Mikolov⾸次提出 Word2vec
2✡ Efficient estimation of word representations in vector space Mikolov专⻔讲训练 Word2vec 中的两个trick:hierarchical softmax 和 negative sampling
3✡ word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method Yoav Goldberg关于word2vec的论⽂,对 negative-sampling 的公式推导⾮常完备
4✡ word2vec Parameter Learning Explained Xin Rong关于word2vec的论⽂,⾮常不错
5✡✡ ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING 旋转位置嵌⼊(RoPE)论⽂,这是苏剑林本⼈对它的解读
6✡✡ Linearized Relative Positional Encoding 统⼀了适⽤于linear transformer的相对 位置编码
7✡✡✡ SEARCHING FOR ACTIVATION FUNCTIONS SwiGLU的原始论⽂
8✡ The Natural Language Decathlon: Multitask Learning as Question Answering GPT-1、GPT-2论⽂的引⽤⽂献,Salesforce发表的⼀篇⽂章,写出了多任务单模型的根本**
9✡✡ ZeRO: Memory Optimizations Toward Training Trillion Parameter Models ZeRO是微软deepspeed的核⼼,这是关于ZeRO的解读之⼀
10✡ Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM Megatron-LM 论⽂原始论⽂对相关技术的解读:千亿参数开源⼤模型 BLOOM 背后的技术
11✡ Training Deep Nets with Sublinear Memory Cost 提出了一种减少深度神经网络训练时内存消耗的系统性方法。
12✡✡ FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness Flash attention 这是其解读之⼀虽然大多数transformer论文都没有替换原始的缩放点积机制来改进自注意力,但FlashAttention是其中最常引用的一种机制。
13✡ Fast Transformer Decoding: One Write-Head is All You Need Muti Query Attention论⽂,MQA 是 19 年提出的⼀种新的 Attention 机制,其能够在保证模型效果的同时加快 decoder ⽣成 token 的速度,这是其解读之⼀
14✡✡ GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head Checkpoints GQALLaMA-2 使用了该技术来加速
15✡ Cramming: Training a Language Model on a Single GPU in One Day 在这篇论文中,研究人员使用单个GPU用了24个小时训练了一个遮罩语言模型/编码器风格的语言模型,在单个GPU上进行24小时,相比之下,2018年BERT刚提出来的时候,在16个TPU上训练了四天。有趣的结论是,虽然较小的模型具有更高的吞吐量,但小模型的学习效率也比较低,所以较大的模型不需要更多的训练时间来达到特定的预测性能阈值。
16✡✡ Scaling Language Models: Methods, Analysis & Insights from Training Gopher Gopher论文中有大量的分析来理解大型语言模型的训练过程。研究人员在3000亿个token上训练了一个80层、2800亿参数的模型,还提出了一些架构上的修改,如使用RMSNorm(均方根归一化)而非LayerNorm(层归一化)。LayerNorm和RMSNorm都优于BatchNorm,因为它们并不依赖于batch size,也不需要同步,对于在batch size较小的分布式设置中是一个优势,而且RMSNorm通常被认为可以稳定更深层次架构中的训练。这篇论文的主要重点是不同尺度(sacle)模型在任务性能上的分析。对152个不同任务的评估表明,增加模型尺寸对理解、事实核查和有毒语言识别等任务的益处最大,而与逻辑和数学推理相关的任务从架构扩展中受益较少。
17✡✡ Training Compute-Optimal Large Language Models 论文中定义了大型语言模型训练的线性缩放律(linear scaling low),例如虽然Chinchilla的大小只有GPT-3的一半,但它的表现优于GPT-3,因为它是在1.4万亿(而不是3000亿)个token上训练的。换句话说,训练语料中token的数量与模型大小一样重要。
18 Transformer-XL: Attentive language models beyond a fixed-length context

2.6 综述及其他

ID Paper Introduction
1✡✡ Deep Residual Learning for Image Recognition ResNet论⽂这是李沐针对ResNet的解读,另 这是李沐针对⼀些paper的解读列表
2✡✡ BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding BERT论文提出了遮罩语言建模(Mask LM),并且下一句预测(next-sentence prediction)仍然是一种有影响力的解码器架构,不过后续的RoberTa删除了下一句预测任务,简化了预训练目标。
3✡✡ BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension BERT类语言模型主要关注编码器,通常是预测建模任务的首选,而GPT类型的解码器风格的语言模型在文本生成方面更好。为了同时利用二者的优势,BART论文结合了编码器和解码器部分。
4✡✡ Efficient Transformers: A Survey 综述报告,关于提高Transformer效率的各种技术-1。主要针对一类X-former模型,例如Reformer, Linformer, Performer, Longformer为例,这些对原版Transformer做了改进,提高了其计算和内存的效率。
5✡✡ A Survey on Efficient Training of Transformers 综述报告,关于提高Transformer效率的各种技术。
6✡✡ Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond 综述报告,说明了不同的架构是如何演变的,提供了LLM family tree除了讨论BERT风格的遮罩语言模型(编码器)和GPT风格的自回归语言模型(解码器)之外,还提供了关于预训练和微调数据的讨论和指导。
7✡✡ Unifying Large Language Models and Knowledge Graphs: A Roadmap LLM与知识图谱的结合实战
8✡✡ A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT 预训练基础模型的演变史
9✡✡ Pre-Trained Models: Past, Present and Future 21年1⽉初在CCF启智会⽀持下,⽂继荣、唐杰和⻩⺠烈三位⽼师召集了以预训练模型为主题的闭⻔研讨会,此后22位⽼师和同学经过近半年准备,共同形成了这篇43⻚的综述和观点⽂章 Pre-Trained Models: Past, Present and Future
  1. 大模型与多模态相关

ID Paper Introduction
1✡ BEiT: BERT Pre-Training of Image Transformers
2✡ BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers
3✡ Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks 这是针对该论⽂的解读之⼀2022年8⽉,微软提出的多模态预训练模型BEiT-3
4✡ Language Is Not All You Need: Aligning Perception with Language Models 微软23年3⽉1⽇发布的多模态⼤语⾔模型Kosmos-1的论⽂
5✡ PaLM-E: An Embodied Multimodal Language Model https://palm-e.github.io/Google于23年3⽉6⽇发布的关于多模态LLM:PaLM-E,可让能听懂⼈类指令且具备视觉能⼒的机器⼈⼲活
6✡ Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models Visual ChatGPT
7✡ MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models https://minigpt-4.github.io/https://github.com/Vision-CAIR/MiniGPT-4/tree/main
8✡ Flamingo: a visual language model for few-shot learning
9✡ Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
10✡✡ End-to-End Object Detection with Transformers DETR by 2020年5⽉,这是针对DETR的解读之⼀目标检测任务模型演化路线:一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD2014 R-CNN2015 Fast R-CNN、Faster R-CNN2016 YOLO、SSD2017 Mask R-CNN、YOLOv22018 YOLOv32019 CenterNet2020.6 DETR从2020年开始,进入多模态 从VAE、扩散模型DDPM、DETR到ViT/MAE/Swin transformer
11✡✡✡ Denoising Diffusion Implicit Models 2020.10⽉ DDIM
12✡✡✡ AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE Vision Transformer,本文为ViT模型论文,表示可以完全抛弃卷积思路处理CV任务,同样使用Transformer来完成,CV和NLP殊途同归
13✡✡✡ Learning Transferable Visual Models From Natural Language Supervision CLIP由OpenAI在2021年1⽉发布,超⼤规模模型预训练提取视觉特征,图⽚和⽂本之间的对⽐学习(简单粗暴理解就是发微博/朋友圈时,⼈喜欢发⼀段⽂字然后再配⼀张或⼏张图,CLIP便是学习这种对应关系)。解读之一https://github.com/openai/CLIP CLIP: Connecting Text and Images2021年10⽉,Accomplice发布的disco diffusion,便是第⼀个结合CLIP模型和diffusion模型的AI开源绘画⼯具,其内核便是采⽤的CLIP引导扩散模型(CLIP-Guided diffusion model)且后续有很多基于CLIP的⼀系列改进模型,⽐如LsegGroupViTViLDGLIP
14✡✡✡✡ Zero-Shot Text-to-Image Generation DALL·E原始论⽂
15✡ Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 3⽉ Swin Transformer 解读之一
16✡ Swin Transformer V2: Scaling Up Capacity and Resolution Swin Transformer V2 解读之一
17✡ Auto-Encoding Variational Bayes 苏剑林关于VAE的解读之⼀另外⼀个作者:基于苏这个VAE的解读对扩散模型的理解
18✡✡ Denoising Diffusion Probabilistic Models 2020年6⽉提出DDPM,即众⼈⼝中常说的diffusion model这是苏剑林关于DDPM的相对通俗的系列解读另⼀份解读:What are Diffusion Models?(该解读的中⽂笔记)
19✡✡ BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 2022年1⽉ BLIPSalesforce
20✡✡ Hierarchical Text-Conditional Image Generation with CLIP Latents 2022年4⽉ DALL·E 2,解读之一通过CLIP + Diffusion models,达到⽂本⽣成图像新⾼度
21✡✡✡✡ High-Resolution Image Synthesis with Latent Diffusion Models 2022年8⽉发布的Stable Diffusion基于Latent Diffusion Models,专⻔⽤于⽂图⽣成任务这些是相关解读:图解stable diffusion(翻译版之⼀)、这是另⼀解读,这⾥有篇AI绘画发展史的总结Stable Diffusion和之前的Diffusion扩散化模型相⽐, 重点是做了⼀件事, 那就是把模型的计算空间,从像素空间经过数学变换,在尽可能保留细节信息的情况下降维到⼀个称之为潜空间(Latent Space)的低维空间⾥,然后再进⾏繁重的模型训练和图像⽣成计算
22✡✡ BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 2023年1⽉ BLIP2Salesforce
23✡✡ Aligning Text-to-Image Models using Human Feedback ChatGPT的主要成功要归结于采⽤RLHF来精调LLM,近⽇⾕歌AI团队将类似的思路⽤于⽂⽣图⼤模型:基于⼈类反馈(Human Feedback)来精调Stable Diffusion模型来提升⽣成效果⽬前的⽂⽣图模型虽然已经能够取得⽐较好的图像⽣成效果,但是很多时候往往难以⽣成与输⼊⽂本精确匹配的图像,特别是在组合图像⽣成⽅⾯。为此,⾕歌最新的论⽂提出了基于⼈类反馈的三步精调⽅法来改善这个问题
24✡✡ InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning 23年5⽉发布的InstructBLIP论⽂,这是其解读之一
25✡ LAVIS: A Library for Language-Vision Intelligence Salesforce开源⼀站式视觉语⾔学习框架LAVIS,这是其GitHub地址:https://github.com/salesforce/LAVIS
26✡ MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models 对各种多模态模型的评测,这是其解读之⼀
27✡✡✡ Segment Anything 23年4.6⽇,Meta发布史上⾸个图像分割基础模型SAM,将NLP领域的prompt范式引进CV,让模型可以通过prompt⼀键抠图
28✡ A Comprehensive Survey on Segment Anything Model for Vision and Beyond 对分割⼀切模型SAM的⾸篇全⾯综述:28⻚、200+篇参考⽂献,这是其中⽂介绍链接
29✡ Fast Segment Anything 中科院版的分割⼀切,这是FastSAM的解读之⼀
30✡ FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAM FOR MOBILE APPLICATIONS ⽐SAM⼩60倍,⽐FastSAM快4倍,速度和效果双赢
  1. 类ChatGPT及垂域版类ChatGPT开源模型

ID Paper Introduction
1✡✡ LaMDA: Language Models for Dialog Applications Google LaMDA模型,参数137B,transformer decoder架构,这是简要解读之⼀在微调阶段 使⽤58K的对话数据,过程类似真⼈的对话过程,给定⼀个Query,⽐如 How old is Rafael Nadal? ,如果⼈知道答案,那么直接回答35岁即可,如果不知道,则需要去 Research ⼀下,借助搜索引擎找到答案,然后再回答35岁ChatGPT****的替代方案
2✡ PaLM: Scaling Language Modeling with Pathways 22年3⽉,Google的Barham等⼈发布了Pathways系统,⽤于更⾼效地训练⼤型模型;Pathways 的愿景是实现⼀个很接近⼈脑的框架:⼀个模型,可以做多任务,多模态且在做任务时,只是 sparsely activated,只使⽤⼀部分的参数22年4⽉,Google发布PaLM模型,基于Transformer decoder架构,参数规模达540B,使⽤multi-query注意⼒、SwiGLU激活函数以及RoPE位置嵌⼊,这是翻译之⼀PaLM⾸次展示了Pathways的⼤规模使⽤——能够以⾼效的⽅式在数千或数万个加速器芯⽚上训练⼀个模型
3✡ Constitutional AI: Harmlessness from AI Feedback ChatGPT的竞品,ChatGPT⽤⼈类偏好训练RM再RL(即RLHF),Claude则基于AI偏好模型训练RM再RL(即RLAIF) ,研究人员将对齐**更进一步,提出了一种创建无害AI系统的训练机制,提出了一种基于规则列表(由人类提供)的自训练机制,而非人类监督。从技术上来说,Consitutinal AI使用的是AI反馈而非人类反馈。
4✡ Improving alignment of dialogue agents via targeted human judgements DeepMind的Sparrow,这个⼯作发表时间稍晚于instructGPT,其⼤致的技术思路和框架与 instructGPT 的三阶段基本类似,但Sparrow 中把奖励模型分为两个不同 RM 的思路ChatGPT****的替代方案
5✡ Crosslingual Generalization through Multitask Finetuning ChatGPT****的替代方案
6✡ LLaMA: Open and Efficient Foundation Language Models 2023年2⽉24⽇Meta发布了全新的65B参数⼤语⾔模型LLaMA,开源,⼤部分任务的效果好于2020年的GPT-3
7✡✡✡ Alpaca: A Strong Open-Source Instruction-Following Model alpaca论文https://github.com/tatsu-lab/stanford_alpaca
8✡✡✡ Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality Vicuna论文
9✡✡✡ GLM: General Language Model Pretraining with Autoregressive Blank Infilling https://zhuanlan.zhihu.com/p/6294619542022年5⽉,正式提出了GLM框架
10✡✡✡ GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL GLM-130B便是基于的GLM框架的⼤语⾔模型
11✡✡✡✡✡ ChatGLM-6B ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答,更多信息请参考我们的博客。欢迎通过 chatglm.cn 体验更大规模的 ChatGLM 模型。
12✡ Opt: Open pre-trained transformer language models GPT开源平替
13✡ BLOOM: A 176B-Parameter Open-Access Multilingual Language Model GPT开源平替
14✡ UL2: Unifying Language Learning Paradigms GPT开源平替
15✡ Large Language Models Encode Clinical Knowledge 从palm - flan palm(指令微调palm模型) - instruction prompt-tuned Flan-PaLM(提示指令调优flan-palm模型)的过程中,通过instruction prompt-tuned Flan-PaLM得到医疗问答模型med-palm,⽽提出了instruction prompt tuning
16✡ Towards Expert-Level Medical Question Answering with Large Language Models 继上篇论⽂提出medpalm之后,5⽉16⽇,Google Research和DeepMind发布了Med-PaLM 2,相⽐第⼀代最显著的改进是基座模型换成了Google的最新⼤模型PaLM2(据说有着340b参数,⽤于训练的token数达3.6万亿)
17✡ ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge 医疗ChatDoctor论⽂
18✡✡ BloombergGPT: A Large Language Model for Finance ⾦融BloombergGPT论⽂,这是其解读之⼀
19✡ COLT5: Faster Long-Range Transformers with Conditional Computation
20✡ ProtTrans:Towards Cracking the Language of Life’s Code Through Self-Supervised Deep Learning and High Performance Computing
21✡ Highly accurate protein structure prediction with AlphaFold
22✡ Large Language Models Generate Functional Protein Sequences Across Diverse Families
23✡ Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling Pythia是一组开源的大型语言模型,参数量从7千万到120亿不等,以用于研究大型语言模型在训练过程中的演变模型架构类似于GPT-3,但包括一些组件改进,例如用Flash Attention和Rotary Positional Embeddings。Pythia研究的主要结论如下:在重复数据上进行训练(超过1个epoch)不会提升或降低性能。训练顺序不会影响记忆。这个结论让我们无法通过重新排序训练数据来缓解不希望的逐字记忆问题。预训练词频影响任务性能。例如,对于更频繁的术语,少样本学习往往准确度更高。将batch size加倍可以将训练时间减半,但不会影响收敛。