cswry/SeeSR

复现训练过程中,训练中间的checkpoint测试发现效果并不好,这正常吗?

Opened this issue · 12 comments

复现训练过程中,训练中间的checkpoint测试发现效果并不好,这正常吗?

同样的问题,请问你有复现论文里的结果吗

同样的问题,请问你有复现论文里的结果吗

我现在还没有训练完,用3/4训练时长的checkpoint和提供的模型文件对比效果,发现还有不小的差距,主要是在细节上差距较大

可以加联系方式交流一下吗,我这么训完了也没有完整复现,效果上主要是比较容易出现模糊的问题。

可以加联系方式交流一下吗,我这么训完了也没有完整复现,效果上主要是比较容易出现模糊的问题。

请问您用的几张显卡训练的 得多大显存呢

你好,可以给一下你的训练设置、具体测试的iteration和模型表现吗?

你好,可以给一下你的训练设置、具体测试的iteration和模型表现吗?
你好,训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像,训练了140k iterations,最后效果是在细节上相比提供的checkpoint差一些,比如
bad
good
整体很接近,细节上有些模糊,其它图像也能发现类似的情况

你好,可以给一下你的训练设置、具体测试的iteration和模型表现吗?
你好,训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像,训练了140k iterations,最后效果是在细节上相比提供的checkpoint差一些,比如
bad
good
整体很接近,细节上有些模糊,其它图像也能发现类似的情况

请问你有定位到原因吗,我也遇到了这个问题

你好,可以给一下你的训练设置、具体测试的iteration和模型表现吗?
你好,训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像,训练了140k iterations,最后效果是在细节上相比提供的checkpoint差一些,比如
bad
good
整体很接近,细节上有些模糊,其它图像也能发现类似的情况
你好,release的这版模型是基于LSDIR+FFHQ10k训练的,我们发现采用更高质量的数据集能提升模型表现。请参考https://arxiv.org/pdf/2311.16518实验设置

你好,可以给一下你的训练设置、具体测试的iteration和模型表现吗?
你好,训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像,训练了140k iterations,最后效果是在细节上相比提供的checkpoint差一些,比如
bad
good
整体很接近,细节上有些模糊,其它图像也能发现类似的情况

请问你有定位到原因吗,我也遇到了这个问题

你好,release的这版模型是基于LSDIR+FFHQ10k训练的,我们发现采用更高质量的数据集能提升模型表现。请参考https://arxiv.org/pdf/2311.16518实验设置

你好,可以给一下你的训练设置、具体测试的iteration和模型表现吗?
你好,训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像,训练了140k iterations,最后效果是在细节上相比提供的checkpoint差一些,比如
bad
good
整体很接近,细节上有些模糊,其它图像也能发现类似的情况

请问你有定位到原因吗,我也遇到了这个问题

你好,release的这版模型是基于LSDIR+FFHQ10k训练的,我们发现采用更高质量的数据集能提升模型表现。请参考https://arxiv.org/pdf/2311.16518实验设置

你好,训练数据我选择的是DIV2K, Flickr2K, OST,暂时没加ffhq人脸数据,算是推荐训练数据的子集。按照论文配置的训练参数8卡v 100,单卡batch_size设置的是2,目前迭代了21w iters,结果图的细节和论文给的模型差距还是比较大,不清楚主要是什么原因导致的。我可以给一个对比参考图,第一个是复现的效果,第二个是论文模型跑的效果
360px-1植物 (1)
360px-1植物_paper

你好,可以给一下你的训练设置、具体测试的iteration和模型表现吗?
你好,训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像,训练了140k iterations,最后效果是在细节上相比提供的checkpoint差一些,比如
bad
good
整体很接近,细节上有些模糊,其它图像也能发现类似的情况

请问你有定位到原因吗,我也遇到了这个问题

你好,release的这版模型是基于LSDIR+FFHQ10k训练的,我们发现采用更高质量的数据集能提升模型表现。请参考https://arxiv.org/pdf/2311.16518

你好,训练数据我选择的是DIV2K, Flickr2K, OST,暂时没加ffhq人脸数据,算是推荐训练数据的子集。按照论文配置的训练参数8卡v 100,单卡batch_size设置的是2,目前迭代了21w iters,结果图的细节和论文给的模型差距还是比较大,不清楚主要是什么原因导致的。我可以给一个对比参考图,第一个是复现的效果,第二个是论文模型跑的效果 360px-1植物 (1) 360px-1植物_paper

你好,release的这版模型是基于LSDIR+FFHQ10k训练的,你可以尝试在这些数据集上训练再对比效果,训练batch_size是192,更详细的训练设置请参考https://arxiv.org/pdf/2311.16518

你好,可以给一下你的训练设置、具体测试的iteration和模型表现吗?
你好,训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像,训练了140k iterations,最后效果是在细节上相比提供的checkpoint差一些,比如
bad
good
整体很接近,细节上有些模糊,其它图像也能发现类似的情况

请问你有定位到原因吗,我也遇到了这个问题

你好,release的这版模型是基于LSDIR+FFHQ10k训练的,我们发现采用更高质量的数据集能提升模型表现。请参考https://arxiv.org/pdf/2311.16518

你好,训练数据我选择的是DIV2K, Flickr2K, OST,暂时没加ffhq人脸数据,算是推荐训练数据的子集。按照论文配置的训练参数8卡v 100,单卡batch_size设置的是2,目前迭代了21w iters,结果图的细节和论文给的模型差距还是比较大,不清楚主要是什么原因导致的。我可以给一个对比参考图,第一个是复现的效果,第二个是论文模型跑的效果 360px-1植物 (1) 360px-1植物_paper

你好,release的这版模型是基于LSDIR+FFHQ10k训练的,你可以尝试在这些数据集上训练再对比效果,训练batch_size是192,更详细的训练设置请参考https://arxiv.org/pdf/2311.16518

这里对batch size192是有疑问的,我试了下,v100单卡设置batch size为4显存就报错了,最多可以设置到3,设置8卡最多到24,在训练的时候是把gradient_accumulation_steps设置较大吗,保证batch_size足够大,再反向回传梯度