为什么baseline.md里multitask的performance基本上都要比single task更差
OYE93 opened this issue · 4 comments
OYE93 commented
如题,谢谢
OYE93 commented
你好,我大概看了一下这篇文章,也是说multi-task比single training效果更好,我觉得可能是multi-task的不同机制,或者数据集也会影响效果,谢谢你的回复
JayYip commented
你好,我大概看了一下这篇文章,也是说multi-task比single training效果更好,我觉得可能是multi-task的不同机制,或者数据集也会影响效果,谢谢你的回复
你的理解可能有误,微软的MT-DNN和这个repo的做法事实上就是上面那篇文章的uniform scaling, 你看文章的Figure 2和Table 1, uniform scaling是比single task的效果要差的。
OYE93 commented
好的,那应该是我对mt-dnn也没有理解,这篇文章是说uniform scaling没有single training效果好。
我再看看,非常感谢