PaddleMIX: A Python repository from PaddlePaddle

简体中文 | English

💌目录

💌目录
📰新闻
📣最新进展
🌈简介
- 特色应用效果示例如下（点击标题可快速跳转在线体验）：
✨主要特性
🔍安装
🔥教程
📱模型库
🏆特色模型|工具
🤔FAQ
❤️致谢
📝许可证书
📌社区交流
🎯引用

📰新闻

🔥2025.04.21日FLUX多模态文生图大模型功能抢先体验

🔥🔥多模态大模型PaddleMIX产业实战精品课第五弹：《FLUX多模态文生图大模型功能抢先体验》。本期课程将带你在PaddleMIX框架中快速体验FLUX系列模型的多模态文生图能力。深度解析模型实现细节与技术创新，带您实操多模态生成任务处理。4月21日正式开营，名额有限，先到先得：https://www.wjx.top/vm/QTuwoyG.aspx?udsid=997416

📣最新进展

🔥2025.07.14 发布Fast-Diffusers扩散模型推理加速工具包

Training-Free：新增T-gate，PAB，TeaCache，TaylorSeer，BlockDance等SOTA Training-Free算法。发布了自研算法SortBlock，TeaBlockCache, CG-Taylor和FirstBlockTaylor算法，在保证生成图像质量的同时，实现2倍以上的端到端推理加速效果
扩散模型时间步蒸馏：新增PCM，DMD2等蒸馏算法，并提供了多种蒸馏loss供开发者灵活搭配。同时基于上述蒸馏算法，发布了基于FLUX-dev的4步蒸馏模型，配合飞桨深度学习编译器，推理时延降低至1.66秒。

🔥2025.05.09 发布PaddleMIX v3.0-beta

多模态理解：新增Qwen2.5VL系列，DeepSeek-VL2等；发布自研PP-DocBee文档理解多模态大模型，新增Qwen2.5VL高性能推理部署，性能领先vllm 11.5%
多模态生成：发布PPDiffusers 0.29.1版本，发布自研可控视频模型PP-VCtrl，新增对SD3 ControlNet和SD3.5的支持。

🎉 2025.01.08 发布自研PP-VCtrl视频生成控制模型

PP-VCtrl 是一个通用的视频生成控制模型，可广泛应用于人物动画、场景转换、视频编辑等视频生成场景。

🎉 2025.01.02 发布自研PP-DocBee文档理解多模态大模型

PP-DocBee是端到端的文档图像理解大模型。在学术界及内部业务场景文档理解评测榜单上，PP-DocBee均达到同参数量级别模型的SOTA水平。

点击展开更多

🎉 2024.10.31 喜迎外部开发者的创作教程页面更新

🌟 自9月6日发起大模型套件精品项目征集活动以来,我们收到了30个优质开发者项目,其中25个精品项目已通过平台评估并成功加精。
🙏 衷心感谢各位开发者基于套件的精彩创作！🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或飞桨AI Studio社区！

🔥2024.10.11 发布PaddleMIX v2.1

支持PaddleNLP 3.0 beta版本，抢先体验其最新功能。
新增Qwen2-VL、InternVL2、Stable Diffusion 3 (SD3)等前沿模型。
发布自研多模数据能力标签模型PP-InsCapTagger；可用于数据的分析和过滤，试验案例表明在保持模型效果的条件下可减少50%的数据量，大幅提高训练效率。
多模态大模型InternVL2、LLaVA、SD3、SDXL适配昇腾910B，提供国产计算芯片上的训推能力。

2024.07.25 发布PaddleMIX v2.0

多模态理解：新增LLaVA系列，Qwen-VL等；新增Auto模块统一SFT训练流程；新增mixtoken训练策略，SFT吞吐量提升5.6倍。
多模态生成：发布PPDiffusers 0.24.1版本，支持视频生成能力，文生图模型新增LCM。新增飞桨版peft，accelerate后端。提供基于飞桨开发的ComfyUI插件。
多模态数据处理工具箱DataCopilot：支持自定义数据结构，数据转换，离线格式检查；支持基本的统计信息，数据可视化功能。

2023.10.7 发布 PaddleMIX v1.0

新增图文预训练模型分布式训练能力，BLIP-2支持千亿规模训练
新增跨模态应用流水线AppFlow，一键支持自动标注，图像编辑，音生图等11种跨模态应用
PPDiffusers发布 0.19.3 版本，新增SDXL及相关任务

🌈简介

PaddleMIX是基于飞桨的多模态大模型开发套件，聚合图像、文本、视频等多种模态，覆盖视觉语言预训练，微调，文生图，文生视频，多模态理解等丰富的多模态任务。它提供开箱即用的开发体验，同时支持灵活定制，满足不同需求，助力探索通用人工智能。

特色应用效果示例如下（点击标题可快速跳转在线体验）：

ComfyUI创作工作流	R1+MIX多模态应用	多模态文档理解

二次元文生图	AI绘画｜50+Lora风格叠加	视频编辑

其他特色应用示例，请查看PaddleMIX精品项目

✨主要特性

📱丰富的多模态模型库

PaddleMIX支持大量最新主流的算法基准以及预训练模型，覆盖图文预训练，文生图，跨模态视觉任务，实现图像编辑、图像描述、数据标注等多样功能。传送门：📱模型库

🧩全流程开发体验

PaddleMIX 向开发者提供全流程多模态大模型开发体验，包括数据处理，模型开发，预训练，精调，推理部署。并针对不同任务提供了推荐模型最佳实践。传送门：📱最佳实践

💡高性能分布式训推能力

PaddleMIX提供高性能分布式训练与推理能力，基于飞桨4D混合并行策略、算子融合等优化策略，显著提升多模态大模型训练推理性能。传送门：📱benchmark

🔧特色模型与工具

PaddleMIX发布文档理解模型PP-DocBee，统一可控视频生成模型PP-VCtrl，特色数据处理工具箱DataCopilot，加速多模态大模型产业应用落地，传送门：🏆特色模型工具

🔍安装

1. 克隆PaddleMIX仓库

git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX

2. 创建虚拟环境

conda create -n paddlemix python=3.10 -y
conda activate paddlemix

3. ‼️安装PaddlePaddle

方法 1: 一键安装（GPU/CPU推荐）

CUDA 11.x或12.x
PaddlePaddle 3.1.0

sh build_paddle_env.sh

方法 2: 手动安装

关于PaddlePaddle安装的详细教程请查看Installation。

4. ‼️安装依赖

方法 1: 一键安装（推荐）

运行以下命令来自动安装所有必要的依赖:

sh build_env.sh

方法 2: 手动安装

# 安装 PaddleMIX
pip install -e .
# 安装 ppdiffusers
cd ppdiffusers
pip install -e .
cd ..

5. ‼️验证安装

sh check_env.sh

环境和依赖推荐版本:
- paddlepaddle: 3.1.0或develop版本
- paddlenlp: 3.0.0b4
- ppdiffusers: 0.30.0
- huggingface_hub: 0.23.0

🔥教程

多模态大模型入门教程

快速开始

最佳实践

benchmark

多模态应用案例

多硬件使用

昇腾910B支持的模型列表和使用方式，可以参考昇腾硬件使用
昆仑P800支持的模型列表和使用方式，可以参考昆仑硬件使用

📱模型库

多模态理解

多模态生成

多模态大一统

图文预训练

开放世界视觉模型

更多模态预训练模型

ImageBind

文生图

文生视频

音频生成

统一多模态模型

更多模型能力，可参考模型能力矩阵

🏆特色模型|工具

💎PP-DocBee文档理解特色模型

PaddleMIX提出了PP-DocBee，基于多模态大模型实现端到端的文档图像理解。它可以高效地应用在各类场景的文档理解、文档问答等，尤其是对中文的文档类理解的场景，达到了同参数量级别模型的SOTA水平。

💎PP-VCtrl视频生成控制模型

PaddleMIX提出了PP-VCtrl，一个统一的可控视频生成模型，实现了对各类控制信号的灵活接入和精确控制。可以高效地应用在各类视频生成场景中，尤其是人物动画、场景转换、视频编辑等需要精确控制的任务。

💎多模态数据处理工具箱DataCopilot

简介

在真实的应用场景有大量使用专有数据微调多模态大模型来提升模型效果的需求，此过程中数据要素成为核心。基于此PaddleMIX提供了数据处理和分析的工具DataCopilot，使开发者可在PaddleMIX套件完成端到端的开发体验。传送门：DataCopilot使用文档。

PP-InsCapTagger(Instance Capability Tagger) 是 DataCopilot 基于 PaddleMIX 实现的数据集能力标签模型，用于为多模态数据实例能力打标，通过实例能力分布对数据集进行优化，可以提高模型训练效率，为数据集分析和评价提供了一种高效的方案。结合模型推理打标结果对LLaVA SFT数据集进行优化，可以提高LLaVA模型SFT阶段50%的训练效率。

PP-InsCapTagger效果(点击展开)

Model	ScienceQA	TextVQA	VQAv2	GQA	MMMU	MME
llava-1.5-7b (origin)	66.8	58.2	78.5	62	-	-
llava-1.5-7b (rerun)	69.01	57.6	79	62.95	36.89	1521 323
llava-1.5-7b (random 50%)	67.31	55.6	76.89	61.01	34.67	1421 286
llava-1.5-7b (our 50%)	70.24 (+2.93)	57.12 (+1.52)	78.32 (+1.43)	62.14 (+1.13)	37.11 (+2.44)	1476 (+55) 338 (+52)

传送门：pp_inscaptagger使用文档。

🤔FAQ

关于我们项目的一些常见问题解答，请参考FAQ。如果您的问题没有得到解答，请随时在Issues中提出

❤️致谢

PaddleMIX的部分模块和案例设计借鉴了 Hugging Face 的Transformers🤗关于预训练模型使用的优秀设计，在此对 Hugging Face 作者及其开源社区表示感谢。
PaddleMIX 的部分案例和代码由以下优秀社区开发者贡献，（完整的贡献者请参考: Contributors）： co63oc， CrazyBoyM， KPCOFGS， pkhk-1， 1649759610， DrRyanHuang， zhiboniu， cocoshe， sneaxiy， yangrongxinuser， cheng221， Liyulingyue， zhoutianzi666， Birdylx， FeixLiu， Tsaiyue， fightfat， warrentdrew， swagger-coder ...
感谢星河(AIStudio)社区的项目达人们开发了众多有趣的应用，为PaddleMIX的发展创造了更多可能性。特别感谢以下活跃的项目达人（完整名单请参见AIStudio 项目达人推荐榜）：好想成为PPDE（已成为版），旭_1994， knoka，魔术师，非鱼子焉 ...

📝许可证书

本项目的发布受Apache 2.0 license许可认证。

📌社区交流

微信扫描二维码并填写问卷，即可加入交流群与众多社区开发者以及官方团队深度交流。

🎯引用

@misc{paddlemix2023,
  title={PaddleMIX, Paddle Multimodal Integration and eXploration.},
  author={PaddlePaddle Authors},
  howpublished = {\url{https://github.com/PaddlePaddle/PaddleMIX}},
  year={2023}
}