VDIGPKU/T-SEA

显存泄漏问题

Kris-Lcq opened this issue · 16 comments

作者您好,我在跑您train_optim.py这个代码的时候,随着epoch的增长,显存占用也在缓慢增长,请问作者在自己的设备上跑的时候遇到过这种问题吗?

您好,我们在训练的时候没有观察到这个现象。

有出现epoch增长之后报显存溢出导致无法继续训练的问题吗?我们之前的实验在5k个epoch时也是可以正常训练的。

如果实在不行,可以尝试在训练代码里显式地清缓存torch.cuda.empty_cache()

作者您好,我在跑您train_optim.py这个代码的时候,随着epoch的增长,显存占用也在缓慢增长,请问作者在自己的设备上跑的时候遇到过这种问题吗?

你好请问你的这个问题解决了吗?我也遇到同样的问题:显存占用缓慢增长

你好 同问这个问题 我试着在每个epoch添加torch.cuda.empty_cache() 但显存依旧会溢出

方便report一下显卡型号这些基本信息吗?之前在Titan的卡上没有发现这个问题,我们最近打算在别的服务器复现一下这个问题。

xiwen1 commented

3090ti CUDA Version: 12.0

您好 是在ubuntu18上 3080ti CUDA11.3

xiwen1 commented

在了v100的设备上就不会出现内存泄露的问题了

在我们的设备上还有一个现象 在V4和V4-TINY上不存在泄露问题 但在V3和V5中仍存在
附:在换用了3090和CUDA12.1后 仍是相同问题

在我们的设备上还有一个现象 在V4和V4-TINY上不存在泄露问题 但在V3和V5中仍存在 附:在换用了3090和CUDA12.1后 仍是相同问题

请问您最后解决显存泄露的这个问题了吗

在了v100的设备上就不会出现内存泄露的问题了
您好,请问最后解决这个显存泄露的问题了吗

假如有显存泄露问题可以考虑在nms的时候传入detections_with_grad.detach()

假如有显存泄露问题可以考虑在nms的时候传入detections_with_grad.detach()

使用YOLOv5的话在这里添加确实有效果,十分感谢!

preds = non_max_suppression(detections_with_grad, self.conf_thres, self.iou_thres) # [batch, num, 6] e.g., [1, 22743, 1, 4]

请问是什么原因导致了这个问题?

如果有明显存在泄露问题可以考虑在nms的时候确定detections_with_grad.detach()

使用YOLOv5的话这里添加确实有效果,十分感谢!

preds = non_max_suppression(detections_with_grad, self.conf_thres, self.iou_thres) # [batch, num, 6] e.g., [1, 22743, 1, 4]

请问是什么原因导致了这个问题?
请问detections_with_grad.detach()代码具体添加的位置是在哪?可否加q具体探讨

如果有明显存在泄露问题可以考虑在nms的时候确定detections_with_grad.detach()

使用YOLOv5的话这里添加确实有效果,十分感谢!

preds = non_max_suppression(detections_with_grad, self.conf_thres, self.iou_thres) # [batch, num, 6] e.g., [1, 22743, 1, 4]

请问是什么原因导致了这个问题?
请问detections_with_grad.detach()代码具体添加的位置是在哪?可否加q具体探讨

你可以在我的profile里找到我的联系方式