将AC改为off-policy后，每次训练500条左右的经验就会报错，显示action_dist = torch.distributions.Categorical(probs)这行代码的运行结果为tensor([[nan, nan]]

Question

Opened this issue 7 months ago · 3 comments

代码基本没变，我就加了经验回放池等几个操作

Answer 1 · 2023-12-04T14:09:18.000Z

就在原代码的基础上加入了框选的这几行代码
为啥会跑不通呀？我找了好久没找到错
希望有大佬救救

Answer 2 · 2023-12-13T22:10:53.000Z

就在原代码的基础上加入了框选的这几行代码为啥会跑不通呀？我找了好久没找到错希望有大佬救救

梯度的问题吧，可以检查一下梯度，旧数据对当前策略参数的更新应该是不太稳定的；我也是新手，意见仅作参考

Answer 3 · 2023-12-14T12:40:54.000Z

就在原代码的基础上加入了框选的这几行代码为啥会跑不通呀？我找了好久没找到错希望有大佬救救

梯度的问题吧，可以检查一下梯度，旧数据对当前策略参数的更新应该是不太稳定的；我也是新手，意见仅作参考

感谢，我也找到原因了，确实是梯度问题，梯度更新的时候会出现nan值。