請問訓練此模型時使用的機器規格
hsiaoyun0 opened this issue · 2 comments
hsiaoyun0 commented
謝謝您的分享,
想要詢問說,不知道您在訓練此模型時所使用的機器規格和訓練時長為何?
我有試圖實作,但單純使用4張V100 GPU並使用您提供的dataset從pre-train做起的話,1個epoch大概要900小時
因此想詢問說,不知道您訓練時的硬體環境與訓練時長約多少?
再麻煩了,謝謝!
adamlin120 commented
Pretraining: 8 x A100 80G for 2 weeks
Instruction finetuning: 8 x H100 for 12 hrs
adamlin120 commented
BTW V100 不支援 bf16 可能結果會稍微差一些