TencentARC/LLaMA-Pro

论文Table7请教

XiaoYee opened this issue · 5 comments

请问Table7中的MoE是什么样的设置?

我们实现的MoE类似于soft_moe,对32层的每个FFN进行扩展,保持原来的$W_3$不变,学习一个额外的权重为$\hat{W_3}$的Linear层,同时每层新增两个可学习的参数$\alpha_1,\alpha_2$,初始$\alpha_1=1,\alpha_2=0,\hat{W_3}=0$,forward的时候$W_3,\hat{W_3}$对应的Linear的输出将会和$softmax(\alpha_1,\alpha_2)$进行加权求和得到结果,并输入进下一个block。我们的实现和传统的moe不同点在于所有的token都会进入所有的expert,这比传统的moe用了更多的flops,因为我们的深度扩展也会带来更多的flops,所以我认为这是一个相对公平的对比。

我们实现的MoE类似于soft_moe,对32层的每个FFN进行扩展,保持原来的W3不变,学习一个额外的权重为W3^的Linear层,同时每层新增两个可学习的参数α1,α2,初始α1=1,α2=0,W3^=0,forward的时候W3,W3^对应的Linear的输出将会和softmax(α1,α2)进行加权求和得到结果,并输入进下一个block。我们的实现和传统的moe不同点在于所有的token都会进入所有的expert,这比传统的moe用了更多的flops,因为我们的深度扩展也会带来更多的flops,所以我认为这是一个相对公平的对比。

请问可以release一下论文中对于moe方法的实现吗?

请问啥时候可以开源一下llama pro moe的训练方法呢

预计在这个月开源训练代码