vLLM 深入浅出(vLLM Demystified)

最近几个月在使用 vLLM 推理语言模型、多模态大模型。涉及到添加 out of tree 的语言模型、多模态模型，还需要在 ray + vllm 场景下跑通。初期看着报错堆栈一头雾水，然后一步步利用打印大法调试，在此学习过程中有不少抓耳挠腮的时刻，也有不少收获，所以想借着十一期间7天假期，系统性地总结成一个系列。既然写了就分享出来，希望能对大家有所帮助。另外也希望借助这个系列，让国内做 vLLM 相关开发的同学，能够互相认识，形成社区，一起学习、交流。

号外：招募一起写作本系列文章的朋友，合作方式就跟开源项目一样，提交 issue 来说明自己想写的章节，当提供了初步的素材之后，可以联系我加入作者群。

本书集面向的人群

内容提要

vLLM 概述

是什么，发展历史

vLLM 如何使用

环境搭建，配置与测试

基础概念

架构、核心组件介绍

模型推理的极简流程

调度策略

显存管理

进阶

定位问题三板斧

性能调优三板斧

优化 CPU、GPU 通信过程 second meetup 里的部分：P22、P23

优化计算过程

优化显存管理

vLLM 如何保证正确性和鲁棒性？

first meetup 里的部分

如何一步步提升易用性

first meetup 里的部分

开发实战

新增模型加载方法、新增模型、新增通信过程

vLLM 对工作的帮助

想要一个通信组网的测试？有现成的

想要测试某个模型是否支持某个功能？

想看看的最佳实践？

vllm-learner/vLLM-Book