最近几个月在使用 vLLM 推理语言模型、多模态大模型。涉及到添加 out of tree 的语言模型、多模态模型,还需要在 ray + vllm 场景下跑通。初期看着报错堆栈一头雾水,然后一步步利用打印大法调试,在此学习过程中有不少抓耳挠腮的时刻,也有不少收获,所以想借着十一期间7天假期,系统性地总结成一个系列。既然写了就分享出来,希望能对大家有所帮助。另外也希望借助这个系列,让国内做 vLLM 相关开发的同学,能够互相认识,形成社区,一起学习、交流。
号外:招募一起写作本系列文章的朋友,合作方式就跟开源项目一样,提交 issue 来说明自己想写的章节,当提供了初步的素材之后,可以联系我加入作者群。
是什么,发展历史
环境搭建,配置与测试
架构、核心组件介绍
优化 CPU、GPU 通信过程 second meetup 里的部分:P22、P23
优化计算过程
优化显存管理
first meetup 里的部分
first meetup 里的部分
新增模型加载方法、新增模型、新增通信过程
想要一个通信组网的测试?有现成的
想要测试某个模型是否支持某个功能?
想看看的最佳实践?