Description | Paper | Code | Blog |
---|---|---|---|
代码大模型综述:中科院和MSRA调研27个LLMs,并给出5个有趣挑战 | paper | blog,项目主页 | |
北京大学:具有大语言模型的自我规划代码生成 | paper | ||
谷歌提出Self-Debugging:教导大型语言模型进行自我调试 | paper | ||
通过自我改进实现更好的代码语言模型,显著提高模型生成任务的性能 | paper | ||
MIT最新研究:利用大预言模型生成Code | paper | code | 项目网址 |
MathPrompter: 基于大型语言模型的数学推理 | paper | ||
MIT最新研究:利用大语言模型生成Code | paper | code | 官网地址 |
一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」 | demo | blog |
Description | Paper | Code | Blog |
---|---|---|---|
从 GPT 到 ChatGPT 的演进与应用思考 | blog | ||
语言模型可以预测公众舆论 | Language models trained on media diets can predict public opinion | ||
ChatGPT助力芯片,传统 EDA如何演变成智能EDA | blog | ||
ChatGPT机器人:设计原则和模型能力 | ChatGPT for Robotics: Design Principles and Model Abilities | ||
各种环境下的ChatGPT赋能长步机器人控制: 一个案例的应用 | ChatGPT Empowered Long-Step Robot Control in Various Environments: A Case Application | code | |
ChatGPT获得了「Wolfram」超能力 | blog | ||
OpenAI开发Plugin将 ChatGPT 连接到互联网 | blog | ||
ChatAug:利用ChatGPT进行文本数据增强 | ChatAug: Leveraging ChatGPT for Text Data Augmentation | ||
ChatGPT 是数据隐私的另一个障碍吗 | blog | ||
基于ChatGPT的数据增强方法:ChatAug和AugGPT | blog | ||
Character.AI 在ChatGPT基础上加入个性化、UGC两大武器,有比 ChatGPT 更丰富的使用场景 | blog | ||
让ChatGPT可以语音交互 | blog | ||
“ChatGPT们”的淘金时代 | blog | ||
70 款 ChatGPT 插件评测(含样例分析) | blog | ||
人大提出WebBrain:NLP新任务,通过网络数据的挖掘生成真实文章 | WebBrain: Learning to Generate Factually Correct Articles for Queries by Grounding on Large Web Corpus | code | |
ChatGPT爆火带来思考:医学界或将迎来与AI融合的奇点? | blog | ||
论ChatGPT大语言模型在教育中的机遇与挑战 | blog | ||
ChatGPT在投资研究领域的应用初探及原理分析 | blog | ||
OpenAI总裁Greg Brockman转发|一种编译语言的调试器,利用ChatGPT旨在增强您使用GDB进行调试体验 | code | ||
不必排队等 OpenAI Plugins,OpenBMB 开源大模型工具学习引擎 | blog | ||
分析了ChatGPT技术以及落地应用场景 | blog |
Description | Paper | Code | Blog |
---|---|---|---|
ChatGPT 应用汇总及操作手册 | blog | ||
ChatGPT提示和技巧速查手册 | blog | ||
非常全面的ChatGPT、LLM相关资源整理分享 | code | ||
ChatGPT超全面课程 | blog | ||
BloombergGPT: A Large Language Model for Finance | BloombergGPT: A Large Language Model for Finance | ||
ChatPDF:一键上传PDF文件即可解读 | blog,试用地址 | ||
ChatWeb:可爬取网页正文,并根据正文回答问题 | code | ||
chatgpt_academic:中科院基于 ChatGPT 专属定制的学术研究及日常开发工具 | --- | code | blog,demo |
Einstein GPT:SaaS 行业巨头 Salesforce 宣布与 OpenAI 合作,推出 Einstein GPT,这是全球首个用于客户关系管理(CRM)的生成式 AI 产品 | Einstein GPT地址,试用地址 | ||
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace | HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace | ||
ImpressionGPT: 利用ChatGPT对放射科报告进行总结的迭代优化框架 | ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT | ||
OpenGpt:创建ChatGPT小应用的AI平台 | code | 官网 | |
TagGPT:腾讯提出零样本多模态标签的大语言模型TagGPT | TagGPT: Large Language Models are Zero-shot Multimodal Taggers | code | |
Visual ChatGPT: 在视觉模型加持下的ChatGPT,聊天生图全拿捏了。 | Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models | ||
NetGPT:用于网络流量的生成预训练Transformer模型 | NetGPT: Generative Pretrained Transformer for Network Traffic |
Description | Paper | Code | Blog |
---|---|---|---|
ChatGPT_Inference_Cost | --- | --- | blog |
ChatGPT_Official_API_Learning | blog | ||
ChatGPT_Parameter_is_not_175B | blog | ||
ChatGPT_Road_Map_from_yao.fu | blog | ||
Lessons_Learned_from_ChatGPT_Recurrence | blog | ||
LLM_Pre-training_Guide(Bloom-175B) | blog | ||
The_guide_of_training_LLM | blog | ||
深度拆解GPT-3.5能力起源 | 原文blog,译文blog | ||
ChatGPT发展历程、原理、技术架构详解和产业未来 | blog | ||
让天下没有难训练的大模型,微软亚洲研究院开源TorchScale | code | ||
82页PPT !最新ChatGPT: 提示学习, 指导微调和RLHF | blog, [提取码:chat] | ||
他们提出了包含视觉特征的 Multimodal-CoT,该架构在参数量小于 10 亿的情况下,在 ScienceQA 基准测试中,比 GPT-3.5 高出 16 个百分点 | Multimodal Chain-of-Thought Reasoning in Language Models | code | |
Nature :生成式 AI 的前景与风险 | blog | ||
万字长文解读:从Transformer到ChatGPT,通用人工智能曙光初现 | blog | ||
AI芯片制造商Cerebras发布7个基于GPT的大语言模型,现已开源 | 官网地址,GPT地址,Hugging Face地址 | ||
大模型论文周报丨GPT-4发布,谷歌开放PaLM API,斯坦福7B开源模型Alpaca媲美GPT-3.5 | blog | ||
LLaMA模型Meta版泄露,GitHub获8K星 | blog | ||
ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark | ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark | ||
打造**版ChatGPT,国内哪家实力最强 | blog | ||
复旦大学邱锡鹏教授解读ChatGPT | blog | ||
万字长文:可能是全网最晚的ChatGPT技术总结 | blog | ||
ChatGPT作为知识库问答系统的问答能力评测 | blog | ||
ChatGPT作者John Shulman:我们成功的秘密武器 | blog,blog译文 | ||
ChatGPT 是数据隐私的另一个障碍吗 | blog | ||
Hugging Face 每周速递: ChatGPT API 怎么用?我们帮你搭好页面了 | blog | ||
复旦大学教授肖仰华:ChatGPT 浪潮下,面向大模型如何做数据治理? | blog | ||
腾讯在ChatGPT的布局 | blog | ||
浅析ChatGPT:历史沿革、应用现状及前景展望 | blog | ||
ChatGPT 背后的“功臣”——人类反馈强化学习RLHF 技术详解 | blog | ||
万字长文解析!复现和使用GPT-3/ChatGPT,你所应该知道的 | blog | ||
想训练ChatGPT?得先弄明白Reward Model怎么训(附源码) | blog | ||
ChatGPT核心技术:强化学习PPO算法 | blog | ||
解读 ChatGPT 背后的技术重点:RLHF、IFT、CoT、红蓝对抗 | blog | ||
OpenAI ChatGPT Code Interpreter入门 | blog | ||
加拿大魁北克大学教授详述:我们该拿ChatGPT怎么办? | blog | ||
AIGC时代的ChatGPT全面综述 | One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era | ||
ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models | ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models | ||
GPT-3 和 GPT-3.5 系列模型的全面分析 | A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models | ||
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks | CHATGPT OUTPERFORMS CROWD-WORKERS FOR TEXT-ANNOTATION TASKS | ||
AdaLoRA:自适应预算分配以实现参数有效的微调 | ADAPTIVE BUDGET ALLOCATION FOR PARAMETEREFFICIENT FINE-TUNING | code | |
大型语言模型的语境忠实提示法 | Context-faithful Prompting for Large Language Models | ||
ChatGPT问,BLIP-2回答模型:面向丰富的视觉描述的自动提问 | ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions | code | |
ChatGPT真的可以取代知识图谱问答吗? | Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of GPT family LLMs' Question Answering Performance,paper翻译 | ||
Meta & 斯坦福大学推出FlexGen:用单个GPU进行大型语言模型的高吞吐量生成性推理 | FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU | code | |
ChatGPT破圈的「秘密武器」:详解RLHF如何影响人类社会! | Perspectives on the Social Impacts of Reinforcement Learning with Human Feedback | blog | |
探讨ChatGPT在对抗攻击和分布外泛化下的鲁棒性 | On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective | code | |
复旦清华联合顶刊发文|ChatGPT:潜力、前景和局限 | ChatGPT: potential, prospects, and limitations | blog | |
引导ChatGPT不要输出有害信息 | The Capacity for Moral Self-Correction in Large Language Models | ||
Junnan Li大佬发表最新多模态的杰作BLIP2 | BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models | code | blog |
Instruction Tuning:无/少样本学习新范式 | Finetuned Language Models Are Zero-Shot Learners | code | |
GPTScore:一种新的评估语言模型方法 | GPTScore: Evaluate as You Desire | code | |
ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习 | blog,video | ||
Fine-tune-CoT:小模型也能做推理,完美逆袭大模型 | Large Language Models Are Reasoning Teachers | code | |
ChatGPT的潜力解锁:自然语言处理中应用、优势、限制和未来方向的全面探索 | UNLOCKING THE POTENTIAL OF CHATGPT: A COMPREHENSIVE EXPLORATION OF ITS APPLICATIONS, ADVANTAGES, LIMITATIONS, AND FUTURE DIRECTIONS IN NATURAL LANGUAGE PROCESSING | ||
阿里巴巴&清华大学 | 大型语言模型在算术任务中的表现如何? | How well do Large Language Models perform in Arithmetic tasks? | code |
本科生60行代码教你手搓GPT大模型 | code |
Description | Paper | Code | Blog |
---|---|---|---|
GPT4_System_Card中文翻译 | blog | ||
GPT4_Technical_Report中文翻译 | blog | ||
【万字长文】GPT-4秘密泄露!所有的信息都在这里!从GPT-4 架构、基础设施、训练数据集、成本、视觉到MoE! | blog,原blog | ||
GPT-4 令人印象深刻但仍在 10 个方面具有缺陷 | blog | ||
多模态大模型GPT-4的新突破 | blog | ||
重磅发布GPT-4 | blog | ||
GPT-4 创造者 Ilya Sutskever 谈 AI 幻觉和 AI ** | blog | ||
GPT-4创造者:第二次改变AI浪潮的方向 | blog | ||
当GPT-4进入北京市2022高考考场能有什么表现? | blog | ||
GPT4技术细节 | blog | ||
GPT4技术关键点总结 | blog | ||
GPT4和ChatGPT的效果对比 | blog | ||
The Ultimate GPT-4 Guide | blog | ||
GPT-4里套娃LLaMA 2!OpenAI创始成员周末爆改「羊驼宝宝」,GitHub一日千星 | blog | ||
Claude 2 解读 ChatGPT 4 的技术秘密:细节:参数数量、架构、基础设施、训练数据集、成本 | blog | ||
用GPT-4进行指令调优 | INSTRUCTION TUNING WITH GPT-4 | code | |
点燃通用人工智能的火花:GPT-4的早期实验 | 原始paper,中文版paper | blog | |
GPT4All:用GPT-3.5-Turbo的大规模数据提炼训练一个助理式聊天机器人 | GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo | code | |
美国东北大学:可以通过要求GPT4反思“你为什么错了?”来提高30%的性能 | Reflexion: Language Agents with Verbal Reinforcement Learning | code | |
对ChatGPT/GPT-4研究的总结以及对大型语言模型未来的展望 | Summary of ChatGPT-Related Research and Perspective Towards the Future of Large Language Models | ||
评估日本医疗执照考试的GPT-4和ChatGPT | Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations | ||
深入研究LLMs与AutoGPT的结合:揭示出GPT-4惊人的人类决策能力! | Auto-GPT for Online Decision Making: Benchmarks and Additional Opinions | code | blog |
【LLM 学习网站】【训练、微调、优化和部署大模型最新技术LLM Learning Lab】[官网]
【LLM 算力评估】【PEFT | Transformer参数量、计算量、显存占用分析】[官网]
【LLM Tokenizer】【Tokenizer的系统梳理,并手推每个方法的具体实现】[blog]
Description | Blog |
---|---|
从头预训练大模型实践经验 | blog |
DeepSpeed的Tutorials | 主页,DeepSpeed Getting Starte |
打造LLM界的Web UI:24GB显卡训练百亿大模型 | blog |
大模型训练感知量化开山之作:LLM-QAT | blog |
混合精度训练技术梳理总结 | blog |
LLM大模型训练Trick系列之拒绝采样 | blog |
Muti Query Attention 和 Attention with Linear Bias(附源码) | blog,paper |
如何使用 Megatron-LM 训练语言模型 | blog |
Description | Blog |
---|---|
PEFT: 在低资源硬件上对十亿规模模型进行参数高效微调 | blog |
大语言模型(LLM)微调技术笔记 | code |
大模型LLM-微调经验分享&总结 | code,blog |
LoRA:卷完图像生成领域,卷文本生成领域的东西,到时是个啥? | blog,code |
QLoRA:在单个48GB GPU上对65B参数的大模型进行微调,只需微调12个小时就可以达到97%的ChatGPT水平。同时只用int4就可以保持fp16精度的效果。 | paper |
华盛顿大学提出全新量化和微调方法,在DB-GPT上享受33B参数的LLM | blog |
MeZO:高效零阶优化器,单卡A100可训练300亿参数模型 | paper,code,blog |
人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法 | blog |
LLM微调经验分享 | 中文blog,英文blog |
Firefly项目 | 介绍Firefly项目如何充分高效训练多轮对话大模型,源码解析ChatGLM2多轮对话训练方法的不足,以及改进方法 |
Description | Blog |
---|---|
伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增 | 中文blog,英文blog |
CAME:大模型训练成本降低近一半 | blog |
大模型推理性能优化之KV Cache解读 | blog |
LLM,压缩即泛化,泛化即智能 | blog |
LLM-Pruner: 剪枝+少量数据+少量训练 = 高效的LLM压缩 | blog |
LLM Accelerator:使用参考文本无损加速大语言模型推理 | blog,paper,code |
LLM 的推理优化技术纵览 | blog |
LLM量化之后,能力退化了多少 | blog |
邱锡鹏团队提出新优化器LOMO|650亿参数,8块GPU全参数微调 | blog,paper |
继思维链、思维树后又一思维骨架:让大模型能做并行解码 | blog |
FrugalGPT | paper,blog |
Description | Blog |
---|---|
工程实践!以LLAMA为例的大模型部署方案 | blog |
一文看遍各行业对ChatGPT的专业评估 | blog |
ChatGPT关于推理、幻觉和交互的多任务、多语言、多通道评估 | paper |
如何评价 OpenAI 的超级对话模型 ChatGPT ? | paper |
用ChatGPT参加计算机科学考试 | paper |
C-Eval:构造中文大模型的知识评估基准 | 主页,paper,code,blog |
多模态大模型的幻觉问题与评估 | blog,paper,code |
谷歌提出TrueTeacher:基于大型语言模型的学习事实一致性评价 | blog,paper |
粗看大模型ChatGLM、MOSS、Bloomz在中文垂域评测中的性能表现:医学、法律、心理学、教育等四大类试题下的测试报告介绍 | paper,code,blog |
评测国内各种对标 ChatGPT 的大语言模型 | blog,code |
OpenLLM大模型排行榜 | 主页,blog,最新进展blog |
斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一 | blog,主页,code |
Description | Blog |
---|---|
工程实践!以LLAMA为例的大模型部署方案 | blog |
大模型部署框架FastLLM解析,支持X86/Arm/CUDA 3种架构的硬件! | blog,code |
用 Hugging Face 推理端点部署 LLM | blog |
【完全指南】如何在本地运行LLM模型:提高模型性能与运行速度 | blog |
LLM 低成本 GPU 部署方案 lmdeploy 开源! | blog,code |
使用 BentoML 部署 🤗 Hugging Face 上的模型:DeepFloyd IF 实战 | 中文blog,英文blog,code |
Some examples of Prompt Engineering as follows:
Description | Paper | Code | Blog |
---|---|---|---|
OpenAI 应用人工智能研究负责人Lilian Weng新博文:关于提示工程的介绍 | blog | ||
Prompt Engineering全面自动化 | blog | ||
ChatGPT提示示例集合 | huggingface | ChatGPT提示示例集合 | 主页 |
ChatGPT Prompt工程:设计、实践与思考 | blog | ||
指令学习综述|ChatGPT背后的指令学习是什么 | Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning | blog |
Complete Content: please refer to Prompt Engineering
Some examples of DataSets as follows:
Description | Paper | Code | Blog |
---|---|---|---|
一篇关于LLM指令微调的综述 | paper | blog | |
智源研究院发布国内首个大规模、可商用中文开源指令数据集COIG:最大规模中文多任务指令集,上新千个中文数据集 | paper | blog,COIG-PC数据下载地址,COIG数据下载地址 | |
总结当前开源可用的Instruct/Prompt Tuning数据 | blog | ||
GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源 | dataset | ||
多模态C4:一个开放的、10亿规模的、与文本交错的图像语料库 | paper | code | |
Mind2Web: 首个全面衡量大模型上网能力的数据集 | blog | ||
该数据集是一个由人工生成、人工注释的助理式对话语料库,覆盖了广泛的主题和写作风格,由 161443 条消息组成,分布在 66497 个会话树中,使用 35 种不同的语言。该语料库是全球众包工作的产物,涉及超过 13500 名志愿者。为了证明 OpenAssistant Conversations 数据集的有效性,该研究还提出了一个基于聊天的助手 OpenAssistant,其可以理解任务、与第三方系统交互、动态检索信息。 | paper | code | dataset |
为了让Panda LLM在中文数据集上获得强大的性能,作者使用了强大的指令微调instruction-tuning技术,将LLaMA基础模型在五个开源的中文数据集进行混合训练,其中包括来自各种语言领域的1530万个样本,例如维基百科语料,新闻语料,百科问答语料,社区问答语料,和翻译语料。 | blog | ||
RedPajama开源项目|复制超过1.2万亿个令牌的LLaMA训练数据集 | code | 原始blog,中文blog,dataset |
Complete Content: please refer to DataSets
Description | Paper | Code | Blog |
---|---|---|---|
复现RLHF:通过开源项目 trl 搭建一个通过强化学习算法(PPO)来更新语言模型(GPT-2) | code | blog | |
详解大模型RLHF过程(配代码解读) | blog | ||
想训练ChatGPT?得先弄明白Reward Model怎么训(附源码) | blog |
Description | Paper | Code | Blog |
---|---|---|---|
腾讯AILab等《大型语言模型中的幻觉》,全面阐述检测、解释和减轻幻觉 | Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models | code | blog |
Description | Paper | Code | Blog |
---|---|---|---|
微软提出Control-GPT:用GPT-4实现可控文本到图像生成! | paper | blog | |
AIGC如何安全可控?中山大学等最新《AIGC中对隐私和安全的挑战及其补救措施:探索隐私计算、区块链潜在应用》全面阐述 | paper | blog | |
ControlVideo: 可控的Training-free的文本生成视频 | paper | code | blog |
大模型切脑后变身PoisonGPT,虚假信息案例 | code | blog | |
ChatGPT羊驼家族全沦陷!CMU博士击破LLM护栏,人类毁灭计划脱口而出 | paper | code | blog |
Description | Paper | Code | Blog |
---|---|---|---|
Transformer升级之路:一种全局长度外推的新思路 | blog | ||
ChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成 | paper | code | blog,demo1,demo2 |
语言大模型100K上下文窗口的秘诀 | blog | ||
RoPE可能是LLM时代的Resnet | blog |
Description | Paper | Code | Blog |
---|---|---|---|
基于大语言模型的智能问答系统应该包含哪些环节? | OpenAI 的审核函数接口 Moderation API | blog | |
搭建本地的chatpdf(原理,文档处理,语义搜索等) | blog | ||
如何避免大语言模型绕过知识库乱答的情况?LlamaIndex 原理与应用简介 | 官方blog,中文blog | ||
使用 Langchain 和 Azure OpenAI 构建一个聊天机器人来查询您的文档 | blog | ||
一文搞懂LangChain是什么 | blog |
Description | Paper | Code | Blog |
---|---|---|---|
AutoGPT | |||
BabyAGI | |||
ChatRPA | |||
Generative Agents | |||
GPT-Engineer | |||
HuggingGPT | |||
MetaGPT | code | ||
NexusGPT | |||
Toolformer |
Description | Paper | Code | Blog |
---|---|---|---|
美国麻省大学&谷歌研究院:改写文本可以避开AI生成文本的检测器,但检索则是一种有效的防御 | paper | code | |
人工智能生成的文本能被可靠地检测出来吗? | paper | blog | |
DetectGPT(斯坦福大学):利用概率曲率检测文本是否大模型生成 | paper | code&data | blog |
Detecting LLM-Generated-Text综述 | paper | blog | |
一个专为教育者打造的全新 AI 检测模型 | blog | ||
OpenAI重磅发布官方「ChatGPT检测器」 | blog | ||
斯坦福最新研究:不要过度依赖GPT生成内容,其检测器可能存在不利于非母语英语写作者的偏见 | paper |
Description | Paper | Code | Blog |
---|---|---|---|
LLaMA评测 | blog |