Alibaba-NLP/StructuralKD

有一个关于优化方法选择的问题,为什么这篇文章和上一篇(ACL2020)都选择了SGD 而不是ADAM这样的呢?

Closed this issue · 2 comments

如题

优化器选择和任务以及模型有关,在我们这个实验设定下(不finetune,使用BiLSTM作为encoder),序列标注用SGD效果比Adam好,但是如果要finetune embedding的话,对于序列标注问题我们用的是adam,我们去年工作公开的代码里面,基于finetune情况下的KD就是基于adam的(https://github.com/Alibaba-NLP/MultilangStructureKD)。对于parsing来说一般都是Adam比较好,所以在paper里也用了adam

感谢回复 谢谢!最近在看你们2篇论文和开源的代码,收获很多!