有一个关于优化方法选择的问题，为什么这篇文章和上一篇（ACL2020）都选择了SGD 而不是ADAM这样的呢？

Question

有一个关于优化方法选择的问题，为什么这篇文章和上一篇（ACL2020）都选择了SGD 而不是ADAM这样的呢？

Closed this issue 3 years ago · 2 comments

如题

Answer 1 · 2021-11-11T04:24:06.000Z

优化器选择和任务以及模型有关，在我们这个实验设定下（不finetune，使用BiLSTM作为encoder），序列标注用SGD效果比Adam好，但是如果要finetune embedding的话，对于序列标注问题我们用的是adam，我们去年工作公开的代码里面，基于finetune情况下的KD就是基于adam的（https://github.com/Alibaba-NLP/MultilangStructureKD）。对于parsing来说一般都是Adam比较好，所以在paper里也用了adam

Answer 2 · 2021-11-11T06:27:54.000Z

感谢回复谢谢！最近在看你们2篇论文和开源的代码，收获很多！