定制化构建qwen_moe架构,并实现训练和微调
- 从原始模型copy权重给moe架构的模型
$cd mergekit-moe
sh run.sh
或者
python mergit.py (需要将run.sh中的参数添加进去)
- 运行完成后,可以对moe模型进行测试
python mergekit-moe/test_after_merge.py
$cd pretrain
sh run.sh
$cd finetune
sh run.sh
注意:如果需要关闭wandb,请在终端运行命令(开启也是一样的命令)
wandb offline