如何在自己的数据集上进行训练
Closed this issue · 8 comments
houruixiang-1024 commented
cnulab commented
你好!
我看报错的信息是因为你没有修改utils/categories.py文件,你需要将你的数据集添加到utils/categories.py里面。
3090可能只能设置batch_size为1(在diffusion.yaml里面修改)。
houruixiang-1024 commented
cnulab commented
请问你使用了什么命令运行程序?
houruixiang-1024 commented
请问您使用了什么运行程序?
运行以下命令时 出现上图的错误
python -m torch.distributed.launch --nproc_per_node=1 train_diffusion.py --dataset Wins
cnulab commented
houruixiang-1024 commented
cnulab commented
这个问题我也不知道具体什么原因造成的,检查下CUDA和torch版本是否对应。或者重启下服务器试试。但是我还是建议你能用更大显存的卡跑,24G可能跑不动😞。
houruixiang-1024 commented
这个问题我也不知道具体是什么原因造成的,检查下CUDA和torch版本是否对应。或者重启下服务器试试。但是我还是建议你能用更大的显存卡跑,24G可能跑不动😞。
感谢作者的耐心回复,也感谢您在无监督检测领域做出的开源贡献,谢谢您的指导😊。