- 🐳序-AGI之路
- 🐱第一章-大模型之Pre-Training
- 🐶第二章-大模型之部署与推理
- 🐯第三章-大模型微调
- 🐻第四章-大模型量化
- 🐼第五章-显卡与大模型并行
- 🐨第六章-Prompt-Engineering
- 🦁第七章-Agent
- 🐷RAG
- 🐘第八章-大模型企业落地
- 🐰第九章-大模型评估指标
- 🐷第十章-热点
Pre-Training预训练Llama-3.1 405B超大杯,需要多少算力资源?
10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNorm
神经网络的激活函数(二)Sigmiod、Softmax和Tanh
神经网络的激活函数(五)门控系列-GLU、Swish和SwiGLU
看懂FlashAttention需要的数学储备是?高考数学最后一道大题
为什么会发展出Multi-Query-Attention和Group-Query-Attention
大模型output-token为什么比input-token贵
如何评判大模型的输出速度?首Token延迟和其余Token延迟有什么不同?
大模型的latency(延迟)和throughput(吞吐量)有什么区别
vLLM使用PagedAttention轻松、快速且廉价地提供LLM服务(中文版翻译)
DevOps,AIOps,MLOps,LLMOps,这些Ops都是什么?
Transformer架构的GPU并行和之前的NLP算法有什么不同?
万字长文Prompt-Engineering-解锁大模型的力量
GraphRAG:解锁大模型对叙述性私人数据的检索能力(中文翻译)
大模型应用涌现出的新工作机会-红队测试Red-teaming
大模型性能评测之大海捞针(Needle In A Haystack)
韩国“N 号房”事件因Deep Fake再现,探究背后的技术和应对方法