chairc/Integrated-Design-Diffusion-Model

关于训练更大尺寸需要的显存

Opened this issue · 9 comments

作者大佬你好,
作者说40GiB显存足够训练128尺寸的图片.
请问作者团队有试过你们训练的最大可能吗? 比如256x256, 请问作者团队最大训练到多少尺寸, 用的配件条件大概是什么样的
非常感谢大佬!

chairc commented

一般来说我们只训练64×64的模型,然后在此基础上生成256×256的图像。我们最多跑160×160的尺寸,22GB显存。群里有人用10张3090跑了80多个小时的256×256训练

一般来说我们只训练64×64的模型,然后在此基础上生成256×256的图像。我们最多跑160×160的尺寸,22GB显存。群里有人用10张3090跑了80多个小时的256×256训练

佬, Latent方式降低显存功能大概多久能上啊, 很期待_(:з)∠)_. 这样就能生成和训练更大的尺寸了 GitHub上好像没有什么公开可以自己训练的潜在扩散模型. 就你这一家了, 全村的希望

chairc commented

得等我有时间慢慢弄,现在在看着咋搞呢,估计要重写train方法

得等我有时间慢慢弄,现在在看着咋搞呢,估计要重写train方法

大佬辛苦了

一般来说我们只训练64×64的模型,然后在此基础上生成256×256的图像。我们最多跑160×160的尺寸,22GB显存。群里有人用10张3090跑了80多个小时的256×256训练

大佬我刚刚试着在generate.py里把img_size调成256, 直接报OOM, 要64GiB的显存, 而且只能放在单卡上, 用的是ddim, UNET, 预加载的模型是cifar10-conditional-ddim-unet-gelu-numclass10-imagesize64_model.pt, 只生成一张, 请问有什么可以降低需求的方法吗.

chairc commented

算力需要大显存,硬性条件。256×256计算量很大,你可以先用64×64的模型跑出来你可以生成最大的图,再自己写个resize方法上采样扩大尺寸吧。
image

哥你这么晚还在. 谢谢哥, 所以一般是生成自己能生成最大的再用torchvision resize就好了嘛.

一般来说我们只训练64×64的模型,然后在此基础上生成256×256的图像。我们最多跑160×160的尺寸,22GB显存。群里有人用10张3090跑了80多个小时的256×256训练

请问作者可以分享一下10张3090的256x256训练的train.py里的参数设置吗, 非常感谢

chairc commented

还有就是用超分算法去扩或者清晰化图像