stable_diffusion

基于扩散的文本到图像生成模型

稳定扩散是一种潜在的文本到图像扩散模型，能够根据任何文本输入生成逼真的照片。

Stable-Diffusion-v-1-4 检查点是使用Stable-Diffusion-v-1-2 检查点的权重进行初始化的，并在“laion-aesthetics v2 5+”上以 512x512 的分辨率进行了 225k 步的微调，并且丢弃了10%的文本条件，以改进无分类器引导采样。

下载权重

这些权重旨在与原始的CompVis 稳定扩散代码库一起使用。如果您正在寻找与 Diffusers 库一起使用的模型，请点击这里。

模型详情

开发者：Robin Rombach, Patrick Esser
模型类型：基于扩散的文本到图像生成模型
语言：英语
许可证：创意 ml OpenRAIL M 许可证是一种开放 RAIL M 许可证，改编自BigScience和RAIL 倡议在负责任的人工智能许可领域共同开展的工作。另见关于我们许可证所基于的BLOOM 开放 RAIL 许可证的文章。
模型描述：这是一个可以根据文本提示生成和修改图像的模型。它是一种潜在扩散模型，使用固定的、预训练的文本编码器(CLIP ViT-L/14)，如Imagen 论文中所建议的。
更多信息资源：GitHub 存储库，论文。

引用方式：

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

maxliaops/stable_diffusion

stable_diffusion

下载权重

模型详情