关于模型中断,重启的问题,怎么让模型继续训练
Closed this issue · 6 comments
459737087 commented
我已经保存模型了,怎么让它加载之前的模型继续跑。
KaiLv69 commented
trainer有load_model
方法加载保存好的模型权重,load_checkpoint
方法加载保存点。在训练开始前调用load_model
或者load_checkpoint
可以继续之前的训练。
KaiLv69 commented
具体报错信息是什么?load_checkpoint时需要保持前后两次训练并行设置一样
459737087 commented
OOM ,CudaOutOfMemory @KaiLv69 ,And I found the checkpoint only ran in a single graphics card.
459737087 commented
还有一个问题,就是load_checkpoint之后是从头训练还是继续训练,比如说加载一个跑了10个epoch的模型,结果显示是从0开始跑,10个epoch之后保存的名字还是10,这是不是说明他这个不属于继续训练,它属于从头训练。 @KaiLv69
KaiLv69 commented
新版本已经解决这个问题了