【Stable Diffusion|最新模型SDXL论文详解+工作流设计与分享|Ai+建筑】 https://www.bilibili.com/video/BV1AP411r7Ca/?share_source=copy_web
Base 基础版 Download | 下载
Multilingual 多语言版 Download | 下载 Use TranslateCLIPTextEncodeNode From AlekPet | 使用AlekPet制作的TranslateCLIPTextEncodeNode模块https://github.com/AlekPet/ComfyUI_Custom_Nodes_AlekPet
-
SDXL系列模型
Stable Diffusion家族新一代基础大模型(LDM)
-
论文地址
-
SD不同系列模型用户偏好得分与对比
SDXL(base+refiner):48.44
SDXL(base):36.93
SD1.5:7.91
SD2.1:6.71
-
系列模型
1)文生图(txt2img)
2)图生图(img2img)
3)局部重绘(inpainting)
4)扩展填充(outpainting)
-
架构:模块化
1)可单独使用,也可组合使用;
2)可用于拓展任何模型,不仅仅用于潜空间扩散模型LDMs(如Stable Diffusion等),也可用于像素扩散模型(如DeepFloyd IF等)
-
组成
1)文本编码器(2个):OpenCLIP ViT-bigG + CLIP ViT-L(体现在基础设定模块上)
2)基础模型(base)
3)精调模型(refiner)
4)自编码器(VAE):从头训练的全新自编码器
注:两个模型使用相同的提示词和自编码器
-
全新的微调方法:
1)根据图像尺寸调节模型:提前设定所需生成图像的期望尺寸,以便模型发挥最佳性能
2)根据剪裁参数调节模型:由于之前的模型会对图像进行随机剪裁导致主体出画,所以引入了剪裁参数设定,默认(0,0)表示主体位于画面中心
3)在多种纵横比上完成训练:因此XL系列模型支持各种比例的图像高质量生成(如:9:21等)
4)使用从头训练的全新的自编码器(VAE),得分均优于之前的v1和v2系列所用的自编码器,目前还未发布
-
精调模型
1)为何要用精调模型:因为作者发现新模型在生成图像时会出现局部低质量的情况,所以为了弥补这个缺陷,就单独训练了一个模型,用于对高质量、高分辨率的数据进行调整(用到了SDEdit技术,论文地址:https://arxiv.org/pdf/2108.01073.pdf) ,说白了就是打了一个补丁
2)什么时候用:首先说明精调模型不是必要步骤(基础模型可以单独使用);其次精调模型对背景细节和人脸细节有很好的优化,因此在生成此类图像时建议采用
3)模块参数:aesthetic_score、width、height(暂不清楚具体细节)
-
XL系列模型局限性
1)生成复杂结构效果依旧不佳(如:人手)
2)还未完全达到照片级真实效果
3)训练过程严重以来大规模数据集,无可避免的会引入各种偏见
4)对属性等的处理依旧不佳,无法准确匹配特定属性