Raincleared-Song/sparse_gpu_operator

请问训练的代码有么?

Closed this issue · 4 comments

还有文中的Vanilla ReLU和Shifted ReLU在哪里可以获得呀? 希望能够解答~

参考这个 huggingface issue 的回答:

The training of ProSparse is based on BMTrain and an unreleased version of CPM-Live. Actually, our training paradigm is similar to general pre-training of LLaMA, except the ReLU activation and the progressive $L_1$ regularization loss on the FFN intermediate outputs (i.e., the output x in this line).

因为涉及到 CPM-Live 的内部版本,我们不会开源原始的训练代码,但基于开源版本的 CPM-Live 实现稀疏化训练应该是比较容易的,只需要添加正则损失即可。

还有文中的Vanilla ReLU和Shifted ReLU在哪里可以获得呀?

我们并没有计划开源这两个模型,不过如果你确实需要,可以私下联系,模型的权重目前在我们的服务器上。

邮箱:scy22@mails.tsinghua.edu.cn

多谢解答!还有个问题想请教:Vanilla ReLU和ReluLLama都只是简单的替换激活函数吧?区别就是Vanilla ReLU用的数据多一些,所以效果更好?

是的,Vanilla ReLU 用的数据比 ReluLLama 多,前者 7B 是 34.6B token,但后者只有 5B