【LLM】模型4D并行和算子支持列表
DrownFish19 opened this issue · 3 comments
DrownFish19 commented
问题描述
模型4D并行和算子支持专区
大家好,PaddleNLP 团队在这里为大家整理了各个模型4D并行和算子的详细信息,方便大家使用参考。
4D并行支持列表
模型名称/模型能力支持 | 数据并行 | 张量模型并行 | 参数分片并行 | 流水线并行 | |||
---|---|---|---|---|---|---|---|
基础能力 | 序列并行 | stage1 | stage2 | stage3 | |||
Llama | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Llama2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Llama3 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Llama3.1 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Qwen | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Qwen1.5 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Qwen2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Mixtral(moe) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | 🚧 |
Mistral | ✅ | ✅ | 🚧 | ✅ | ✅ | ✅ | 🚧 |
Baichuan(同llama) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Baichuan2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
ChatGLM | ✅ | ✅ | 🚧 | ✅ | ✅ | ✅ | 🚧 |
ChatGLM2 | ✅ | 🚧 | 🚧 | ✅ | ✅ | ✅ | 🚧 |
ChatGLM3 | ✅ | 🚧 | 🚧 | ✅ | ✅ | ✅ | 🚧 |
Bloom | ✅ | ✅ | 🚧 | ✅ | ✅ | ✅ | 🚧 |
GPT-2/GPT-3 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
OPT | ✅ | ✅ | 🚧 | ✅ | ✅ | ✅ | 🚧 |
Gemma | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Yuan2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | 🚧 |
算子支持列表
模型名称/模型能力支持 | 算子优化 | 融合算子 | 混合精度 | 前向重计算(recompute) | ||||
---|---|---|---|---|---|---|---|---|
FlashAttention | fused_rms_norm | fused_rope | fp32 | fp16 | bf16 | full | core_attn | |
Llama | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Llama2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Llama3 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Llama3.1 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Qwen | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Qwen1.5 | ✅ | / | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Qwen2 | ✅ | / | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Mixtral(moe) | ✅ | 🚧 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Mistral | ✅ | 🚧 | ✅ | ✅ | ✅ | ✅ | ✅ | 🚧 |
Baichuan(同llama) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Baichuan2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
ChatGLM | ✅ | / | 🚧 | ✅ | ✅ | ✅ | ✅ | 🚧 |
ChatGLM2 | 🚧 | 🚧 | 🚧 | ✅ | ✅ | ✅ | ✅ | 🚧 |
ChatGLM3 | 🚧 | 🚧 | 🚧 | ✅ | ✅ | ✅ | ✅ | 🚧 |
Bloom | ✅ | / | / | ✅ | ✅ | ✅ | ✅ | 🚧 |
GPT-2/GPT-3 | ✅ | / | / | ✅ | ✅ | ✅ | ✅ | ✅ |
OPT | 🚧 | / | / | ✅ | ✅ | ✅ | ✅ | 🚧 |
Gemma | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Yuan2 | ✅ | 🚧 | 🚧 | ✅ | ✅ | ✅ | ✅ | 🚧 |
github-actions commented
This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。