/MoE_Train

定制化构建qwen_moe架构,并实现训练和微调

Primary LanguagePython

MoE_Train

定制化构建qwen_moe架构,并实现训练和微调

普通模型转换为MoE架构

  1. 从原始模型copy权重给moe架构的模型
$cd mergekit-moe
sh run.sh

或者

python mergit.py (需要将run.sh中的参数添加进去)
  1. 运行完成后,可以对moe模型进行测试
python mergekit-moe/test_after_merge.py

预训练

$cd pretrain
sh run.sh

微调

$cd finetune
sh run.sh

注意:如果需要关闭wandb,请在终端运行命令(开启也是一样的命令)

wandb offline