Orpo训练的内存占用问题

Question

MissQueen opened this issue 25 days ago · 2 comments

数据集用comparison_gpt4_zh，lora 训 llama3-8b，一小时就能训完，A800 每张卡内存占用在40G以内，但是用自定义数据集（平均每条长度都在7000+），同样的配置训练，直接爆内存了... 我有点怀疑人生....

Answer 1 · 2024-05-15T15:07:04.000Z

使用 cutoff_len 限制长度，或降低 batchsize

Answer 2 · 2024-05-22T03:28:06.000Z

使用 cutoff_len 限制长度，或降低 batchsize

batchsize已经是1了...长度限制在8192，再短就会破坏数据了...有别的解法嘛