vLLM,PPL等LLM推理框架的静态和动态性能测试。
1.conda环境:
新建一个conda环境,使用python3.9版本,不要用已有的conda环境进行测试。
conda create -n llm_bench python=3.9 -y
conda activate llm_bench
2.安装依赖:
根据本机CUDA版本进行安装,支持CUDA11和CUDA12,推荐使用CUDA12。
## CUDA 12.x
bash ./build.sh 12
## CUDA 11.x
bash ./build.sh 11
3.权重文件
vllm测试需要hugging face格式的权重,ppl测试需要pmx格式的权重。