论文Table7请教
XiaoYee opened this issue · 5 comments
XiaoYee commented
请问Table7中的MoE是什么样的设置?
hills-code commented
我们实现的MoE类似于soft_moe,对32层的每个FFN进行扩展,保持原来的
icoderzqliu commented
我们实现的MoE类似于soft_moe,对32层的每个FFN进行扩展,保持原来的W3不变,学习一个额外的权重为W3^的Linear层,同时每层新增两个可学习的参数α1,α2,初始α1=1,α2=0,W3^=0,forward的时候W3,W3^对应的Linear的输出将会和softmax(α1,α2)进行加权求和得到结果,并输入进下一个block。我们的实现和传统的moe不同点在于所有的token都会进入所有的expert,这比传统的moe用了更多的flops,因为我们的深度扩展也会带来更多的flops,所以我认为这是一个相对公平的对比。
请问可以release一下论文中对于moe方法的实现吗?
hills-code commented
chensongcan commented
请问啥时候可以开源一下llama pro moe的训练方法呢
hills-code commented
预计在这个月开源训练代码