fanglaosi/Point-In-Context

多卡训练

Closed this issue · 5 comments

首先,非常感谢您提供的训练代码!
我这边在使用多卡训练模型,在调用 sample_farthest_points 时遇到一个问题,想请教一下。

from pytorch3d.ops import sample_farthest_points
....
center, _ = sample_farthest_points(xyz, K=self.num_group) # [B, npoint, 3] [B, npoint]

模型报错:
RuntimeError: Caught RuntimeError in replica 1 on device 1.
....
RuntimeError: CUDA error: too many resources requested for launch
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

在单卡训练时,模型没有问题可以跑起来;但是好像多卡会遇到上面的问题。
请问您是否使用多卡训练?

你好,我是用多卡训练的。

您好,请问您有没有遇到我上面的问题呀?

我在跑的时候没遇到过这个问题,或许你可以调小一点batchsize试一下。

好的,谢谢您。我试一下

这个问题我解决了,是我的batch size 不是卡数的整数倍引起的。谢谢