cnulab/RealNet

如何在自己的数据集上进行训练

Closed this issue · 8 comments

image
我们只有一张3090 显存大小为24G能否运行该模型。
在训练过程中,我遇到了一个似乎与多进程有关的问题,
image
这是我的设备信息
image

你好!
我看报错的信息是因为你没有修改utils/categories.py文件,你需要将你的数据集添加到utils/categories.py里面。
3090可能只能设置batch_size为1(在diffusion.yaml里面修改)。

非常感谢您的及时回复!但是我好像又又遇到一些意料之外的错误 :(
image
image
这是什么问题呢,是我的环境不对吗

请问你使用了什么命令运行程序?

请问您使用了什么运行程序?
运行以下命令时 出现上图的错误
python -m torch.distributed.launch --nproc_per_node=1 train_diffusion.py --dataset Wins

非常感谢您的及时回复!但是我好像又又遇到一些意料之外的错误 :( image image 这是什么问题呢,是我的环境不对吗

在32行的choices里面也把Wins数据集添加上

非常感谢您的及时回复!但是我好像又遇到一些意料之外的错误:(这是什么问题呢,我的环境不好吗图像 图像

在32位选项里面也把Wins数据集添加上

image
是不是因为我这个服务器的cuda版本是12.2不是11.3所导致的
image

这个问题我也不知道具体什么原因造成的,检查下CUDA和torch版本是否对应。或者重启下服务器试试。但是我还是建议你能用更大显存的卡跑,24G可能跑不动😞。

这个问题我也不知道具体是什么原因造成的,检查下CUDA和torch版本是否对应。或者重启下服务器试试。但是我还是建议你能用更大的显存卡跑,24G可能跑不动😞。

感谢作者的耐心回复,也感谢您在无监督检测领域做出的开源贡献,谢谢您的指导😊。