fubinfb/MSD-Font

关于训练时长

lijiaxinxin opened this issue · 5 comments

请问stage1和stage2分别需要训练多少个epoch?我翻阅了论文和补充材料,好像都没有提及相关的配置

由于自然图像的分布和字体图像的分布差异非常大,常见的fine tune SD预训练模型的方法对性能没有明显提升。同时,相比于GAN,diffusion model需要优化t。因此,我们需要较多的迭代次数去学习字体分布。
基于上述原因,我们建议:stage1-1和stage1-2训练80个epoch;stage2可以训练40-50个epoch。
在我们的文章中,我们每个阶段都训练了80个epoch。
另外,考虑到一些数据集使用6000+的字符作为训练字符,在这些数据集上训练80个epoch需要很长的时间,所以您也可以尝试选择合适的训练epoch。

由于自然图像的分布和字体图像的分布差异非常大,常见的fine tune SD预训练模型的方法对性能没有明显提升。同时,相比于GAN,diffusion model需要优化t。因此,我们需要较多的迭代次数去学习字体分布。 基于上述原因,我们建议:stage1-1和stage1-2训练80个epoch;stage2可以训练40-50个epoch。 在我们的文章中,我们每个阶段都训练了80个epoch。 另外,考虑到一些数据集使用6000+的字符作为训练字符,在这些数据集上训练80个epoch需要很长的时间,所以您也可以尝试选择合适的训练epoch。

感谢回复!
另外,请问你们完成这个模型的训练需要多长时间?你们可以公布预训练模型吗?因为我估计了一下,我大概需要二十多天才能完成训练。

  1. 我们总共用两张3090 GPU训练:
    stage1:一张训练rec model;一张训练trans model;80 epoch,一周左右。
    stage2:两张GPU,模型并行,Fine-tune rec model;80 epoch,一周多;但如果只训练40 epoch,应该花费4-5天。
  2. 训练模型:短期内,我们暂时没有公布预训练模型的计划。我们后续可能会公布一个在更大数据库(更多字体,更多字符)上训练的模型。

感谢!

由于自然图像的分布和字体图像的分布差异非常大,常见的fine tune SD预训练模型的方法对性能没有明显提升。同时,相比于GAN,diffusion model需要优化t。因此,我们需要较多的迭代次数去学习字体分布。 基于上述原因,我们建议:stage1-1和stage1-2训练80个epoch;stage2可以训练40-50个epoch。 在我们的文章中,我们每个阶段都训练了80个epoch。 另外,考虑到一些数据集使用6000+的字符作为训练字符,在这些数据集上训练80个epoch需要很长的时间,所以您也可以尝试选择合适的训练epoch。

你好,因为我想训练一个字符数超过5000的数据集,我看了一下如果训练80个epoch会花很长时间,所以请问能告知一下你们训练的时候每个epoch或者总共训练的步数吗?我想做个参考,使用类似的步数进行训练