关于3090用torch1.8跑rfft和irfft如何改动，我自己改动后不报错但现在loss一直是nan。

Question

关于3090用torch1.8跑rfft和irfft如何改动，我自己改动后不报错但现在loss一直是nan。

Ada22222 opened this issue 2 years ago · 6 comments

您好我想咨询一下3090显卡用torch1.8跑rfft和irfft需要怎么处理，我按照网上帖子处理后不报错了但是loss一直是nan。而我本人笔记本2060跑的时候同样torch1.8却不报错，loss也正常。

Answer 1 · 2023-03-15T16:15:59.000Z

你好，你可以尝试这里的代码：#12 (comment)

Answer 2 · 2023-03-26T13:05:31.000Z

非常感谢您的解答，解决了rfft相关问题。
另外还有一件事想请教您，我用您提供的pth文件test的每个测试集结果和原论文差距有点大。不知道是什么原因？这是setting1的X2的两个测试集结果。

另外，我都担心难道我测试集生成的时候不对。麻烦您看看，generate_.....这个文件我除了改动了倍数别的都没动。

Answer 3 · 2023-03-26T21:21:04.000Z

生成测试集的时候generate里面改了倍数的话 sig 范围也要改。x2的sig应该是[0.2-2.0], 但你数据集里出现了sig3.2。

Answer 4 · 2023-03-29T02:04:14.000Z

生成测试集的时候generate里面改了倍数的话 sig 范围也要改。x2的sig应该是[0.2-2.0], 但你数据集里出现了sig3.2。

非常感谢您的耐心回答。是和论文中一样的~~~另外，我用单卡A6000跑的时候，如果把batchsize改成128，您觉得n_workers改成多少合适呀，还有总iters500K我是不是也该对应batchsize成倍减少才对~~

Answer 5 · 2023-03-30T17:41:02.000Z

我还没试过128的batchsize，不过nworkers一般看你服务器是几核的，个人感觉核数/2或4比较合适，不会影响别的程序性能。iteration的话改不改都行，最后差距应该不会太大，可能0.1～0.2个点。

Answer 6 · 2023-03-31T02:49:00.000Z

我还没试过128的batchsize，不过nworkers一般看你服务器是几核的，个人感觉核数/2或4比较合适，不会影响别的程序性能。iteration的话改不改都行，最后差距应该不会太大，可能0.1～0.2个点。

好的感谢您的回答~~~