OpenMOSS/CoLLiE

关于模型中断,重启的问题,怎么让模型继续训练

Closed this issue · 6 comments

我已经保存模型了,怎么让它加载之前的模型继续跑。

trainer有load_model方法加载保存好的模型权重,load_checkpoint方法加载保存点。在训练开始前调用load_model或者load_checkpoint可以继续之前的训练。

你好,load_checkpoint没办法同时分布到多张卡上,这里的代码是不是有问题啊? @KaiLv69

具体报错信息是什么?load_checkpoint时需要保持前后两次训练并行设置一样

OOM ,CudaOutOfMemory @KaiLv69 ,And I found the checkpoint only ran in a single graphics card.

还有一个问题,就是load_checkpoint之后是从头训练还是继续训练,比如说加载一个跑了10个epoch的模型,结果显示是从0开始跑,10个epoch之后保存的名字还是10,这是不是说明他这个不属于继续训练,它属于从头训练。 @KaiLv69

新版本已经解决这个问题了