复现训练过程中，训练中间的checkpoint测试发现效果并不好，这正常吗？

Question

复现训练过程中，训练中间的checkpoint测试发现效果并不好，这正常吗？

Opened this issue a year ago · 12 comments

beyondbatman-master commented a year ago

Answer 1 · 2024-05-13T17:49:14.000Z

同样的问题，请问你有复现论文里的结果吗

Answer 2 · 2024-05-14T01:44:13.000Z

同样的问题，请问你有复现论文里的结果吗

我现在还没有训练完，用3/4训练时长的checkpoint和提供的模型文件对比效果，发现还有不小的差距，主要是在细节上差距较大

Answer 3 · 2024-05-14T02:04:10.000Z

可以加联系方式交流一下吗，我这么训完了也没有完整复现，效果上主要是比较容易出现模糊的问题。

Answer 4 · 2024-05-20T07:10:21.000Z

可以加联系方式交流一下吗，我这么训完了也没有完整复现，效果上主要是比较容易出现模糊的问题。

请问您用的几张显卡训练的得多大显存呢

Answer 5 · 2024-05-26T13:28:58.000Z

你好，可以给一下你的训练设置、具体测试的iteration和模型表现吗？

Answer 6 · 2024-05-26T13:53:23.000Z

你好，可以给一下你的训练设置、具体测试的iteration和模型表现吗？
你好，训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像，训练了140k iterations，最后效果是在细节上相比提供的checkpoint差一些，比如


整体很接近，细节上有些模糊，其它图像也能发现类似的情况

Answer 7 · 2024-08-29T08:56:46.000Z

你好，可以给一下你的训练设置、具体测试的iteration和模型表现吗？
你好，训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像，训练了140k iterations，最后效果是在细节上相比提供的checkpoint差一些，比如


整体很接近，细节上有些模糊，其它图像也能发现类似的情况

请问你有定位到原因吗，我也遇到了这个问题

Answer 8 · 2024-08-29T09:19:05.000Z

你好，可以给一下你的训练设置、具体测试的iteration和模型表现吗？
你好，训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像，训练了140k iterations，最后效果是在细节上相比提供的checkpoint差一些，比如


整体很接近，细节上有些模糊，其它图像也能发现类似的情况
你好，release的这版模型是基于LSDIR+FFHQ10k训练的，我们发现采用更高质量的数据集能提升模型表现。请参考https://arxiv.org/pdf/2311.16518实验设置

Answer 9 · 2024-08-29T09:19:25.000Z

你好，可以给一下你的训练设置、具体测试的iteration和模型表现吗？
你好，训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像，训练了140k iterations，最后效果是在细节上相比提供的checkpoint差一些，比如


整体很接近，细节上有些模糊，其它图像也能发现类似的情况

请问你有定位到原因吗，我也遇到了这个问题

你好，release的这版模型是基于LSDIR+FFHQ10k训练的，我们发现采用更高质量的数据集能提升模型表现。请参考https://arxiv.org/pdf/2311.16518实验设置

Answer 10 · 2024-08-29T09:31:51.000Z

你好，可以给一下你的训练设置、具体测试的iteration和模型表现吗？
你好，训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像，训练了140k iterations，最后效果是在细节上相比提供的checkpoint差一些，比如


整体很接近，细节上有些模糊，其它图像也能发现类似的情况

请问你有定位到原因吗，我也遇到了这个问题

你好，release的这版模型是基于LSDIR+FFHQ10k训练的，我们发现采用更高质量的数据集能提升模型表现。请参考https://arxiv.org/pdf/2311.16518实验设置

你好，训练数据我选择的是DIV2K, Flickr2K, OST，暂时没加ffhq人脸数据，算是推荐训练数据的子集。按照论文配置的训练参数8卡v 100，单卡batch_size设置的是2，目前迭代了21w iters，结果图的细节和论文给的模型差距还是比较大，不清楚主要是什么原因导致的。我可以给一个对比参考图，第一个是复现的效果，第二个是论文模型跑的效果

Answer 11 · 2024-08-31T06:09:37.000Z

你好，可以给一下你的训练设置、具体测试的iteration和模型表现吗？
你好，训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像，训练了140k iterations，最后效果是在细节上相比提供的checkpoint差一些，比如


整体很接近，细节上有些模糊，其它图像也能发现类似的情况

请问你有定位到原因吗，我也遇到了这个问题

你好，release的这版模型是基于LSDIR+FFHQ10k训练的，我们发现采用更高质量的数据集能提升模型表现。请参考https://arxiv.org/pdf/2311.16518

你好，训练数据我选择的是DIV2K, Flickr2K, OST，暂时没加ffhq人脸数据，算是推荐训练数据的子集。按照论文配置的训练参数8卡v 100，单卡batch_size设置的是2，目前迭代了21w iters，结果图的细节和论文给的模型差距还是比较大，不清楚主要是什么原因导致的。我可以给一个对比参考图，第一个是复现的效果，第二个是论文模型跑的效果

你好，release的这版模型是基于LSDIR+FFHQ10k训练的，你可以尝试在这些数据集上训练再对比效果，训练batch_size是192，更详细的训练设置请参考https://arxiv.org/pdf/2311.16518

Answer 12 · 2024-09-02T11:59:45.000Z

你好，可以给一下你的训练设置、具体测试的iteration和模型表现吗？
你好，训练设置如下
CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2
DAPE使用的是提供的模型文件
使用的数据集是文章中的DIV2K, DIV8K, Flickr2K, OST和前10K张FFHQ数据集图像，训练了140k iterations，最后效果是在细节上相比提供的checkpoint差一些，比如


整体很接近，细节上有些模糊，其它图像也能发现类似的情况

请问你有定位到原因吗，我也遇到了这个问题

你好，release的这版模型是基于LSDIR+FFHQ10k训练的，我们发现采用更高质量的数据集能提升模型表现。请参考https://arxiv.org/pdf/2311.16518

你好，训练数据我选择的是DIV2K, Flickr2K, OST，暂时没加ffhq人脸数据，算是推荐训练数据的子集。按照论文配置的训练参数8卡v 100，单卡batch_size设置的是2，目前迭代了21w iters，结果图的细节和论文给的模型差距还是比较大，不清楚主要是什么原因导致的。我可以给一个对比参考图，第一个是复现的效果，第二个是论文模型跑的效果

你好，release的这版模型是基于LSDIR+FFHQ10k训练的，你可以尝试在这些数据集上训练再对比效果，训练batch_size是192，更详细的训练设置请参考https://arxiv.org/pdf/2311.16518

这里对batch size192是有疑问的，我试了下，v100单卡设置batch size为4显存就报错了，最多可以设置到3，设置8卡最多到24，在训练的时候是把gradient_accumulation_steps设置较大吗，保证batch_size足够大，再反向回传梯度