z814081807/DeepNER

滑动平均swa

topDreamer opened this issue · 1 comments

Great work!
能否简单介绍下“swa”的作用呢?另外请教下项目里面使用“swa”是否有明显的效果提升?

Great work!
能否简单介绍下“swa”的作用呢?另外请教下项目里面使用“swa”是否有明显的效果提升?

滑动参数平均:加权平均最后几个epoch模型的权重,得到更加平滑和表现更优的模型. swa用的好的话是有提升的,验证集上效果会是最好的。