Shawn-IEITSystems/Yuan-1.0

请问后续还会有哪些相关的陆续更新呢?

Henry-Avery opened this issue · 2 comments

请问关于论文中LM和PLM模型的代码还有更多的说明吗?我正在复现源1.0论文中的模型和技术,希望能对论文中的Model Architecture有进一步的了解

+1
论文没有详细说明,想清楚地知道哪些是打算开源的,那些是需要自己填补的

目前的代码已经可以用来预训练及微调百亿参数的模型,不需要自己填补内容。考虑到Transformer结构是较为经典的结构,所以在论文中并未详细说明。对于Transformer的学习建议参考:https://arxiv.org/abs/1706.03762
对于源1.0百亿参数训练脚本,可参考:https://github.com/Shawn-Inspur/Yuan-1.0/blob/main/src/pretrain_yuan_13B.sh