请问训练的代码有么?
Closed this issue · 4 comments
lvlu911 commented
还有文中的Vanilla ReLU和Shifted ReLU在哪里可以获得呀? 希望能够解答~
Raincleared-Song commented
参考这个 huggingface issue 的回答:
The training of ProSparse is based on BMTrain and an unreleased version of CPM-Live. Actually, our training paradigm is similar to general pre-training of LLaMA, except the ReLU activation and the progressive
$L_1$ regularization loss on the FFN intermediate outputs (i.e., the outputx
in this line).
因为涉及到 CPM-Live 的内部版本,我们不会开源原始的训练代码,但基于开源版本的 CPM-Live 实现稀疏化训练应该是比较容易的,只需要添加正则损失即可。
Raincleared-Song commented
还有文中的Vanilla ReLU和Shifted ReLU在哪里可以获得呀?
我们并没有计划开源这两个模型,不过如果你确实需要,可以私下联系,模型的权重目前在我们的服务器上。
lvlu911 commented
多谢解答!还有个问题想请教:Vanilla ReLU和ReluLLama都只是简单的替换激活函数吧?区别就是Vanilla ReLU用的数据多一些,所以效果更好?
Raincleared-Song commented
是的,Vanilla ReLU 用的数据比 ReluLLama 多,前者 7B 是 34.6B token,但后者只有 5B