自制大模型推理框架

带你从零写一个支持LLama推理，支持Cuda加速的大模型框架

🙋🙋🙋 《从零自制大模型推理框架》课程火热进行中，请加微信lyrry1997或者扫描海报二维码了解

项目运行效果

LLama1.1b fp32模型，视频无加速，运行平台为Nvidia 3060 laptop，速度为60.34 token/s

一、项目整体架构和设计

学习架构思维，防止自己只会优化局部实现

二、支持LLama2模型结构

本节将为大家补齐算法工程师思维，在算法层面讲解大模型和Transformer的原理之后，开始对LLama2进行支持

三、模型的量化

为了减少显存的占用，我们开发了int8模型量化模块

四、Cuda基础和算子实现

带你学Cuda并在实战大模型算子的实现，为大模型推理赋能

五、用推理框架做点有趣的事情

六、学习其他商用推理框架的实现，查漏补缺

openblas作为armadillo的后端数学库，加速矩阵乘法等操作，也可以选用Intel-MKL，这个库用于CPU上的推理计算

需要其他LLama结构的模型请看下一节模型导出

python export.py llama2_7b.bin --meta-llama path/to/llama/model/7B
# 使用--hf标签从hugging face中加载模型， 指定--version3可以导出量化模型
# 其他使用方法请看export.py中的命令行参数实例

  mkdir build 
  cd build
  # 需要安装上述的第三方依赖
  cmake ..
  # 或者开启 USE_CPM 选项，自动下载第三方依赖
  cmake -DUSE_CPM=ON ..
  make -j16

./llama_infer llama2_7b.bin tokenizer.model