/stable_diffusion

基于扩散的文本到图像生成模型

Primary LanguagePython

stable_diffusion

基于扩散的文本到图像生成模型

稳定扩散是一种潜在的文本到图像扩散模型,能够根据任何文本输入生成逼真的照片。

Stable-Diffusion-v-1-4 检查点是使用Stable-Diffusion-v-1-2 检查点的权重进行初始化的,并在“laion-aesthetics v2 5+”上以 512x512 的分辨率进行了 225k 步的微调,并且丢弃了10%的文本条件,以改进无分类器引导采样

下载权重

这些权重旨在与原始的CompVis 稳定扩散代码库一起使用。如果您正在寻找与 Diffusers 库一起使用的模型,请点击这里

模型详情

  • 开发者:Robin Rombach, Patrick Esser

  • 模型类型:基于扩散的文本到图像生成模型

  • 语言:英语

  • 许可证创意 ml OpenRAIL M 许可证是一种开放 RAIL M 许可证,改编自BigScienceRAIL 倡议在负责任的人工智能许可领域共同开展的工作。另见关于我们许可证所基于的BLOOM 开放 RAIL 许可证的文章

  • 模型描述:这是一个可以根据文本提示生成和修改图像的模型。它是一种潜在扩散模型,使用固定的、预训练的文本编码器(CLIP ViT-L/14),如Imagen 论文中所建议的。

  • 更多信息资源GitHub 存储库论文

  • 引用方式

    @InProceedings{Rombach_2022_CVPR,
        author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
        title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2022},
        pages     = {10684-10695}
    }