损失很大

Question

损失很大

EVAKKKK opened this issue 2 years ago · 8 comments

EVAKKKK commented 2 years ago

@massquantity 网络损失从第三轮左右就变得非常大，ndcg一直很小，你的运行结果也是这样吗，不知道哪里的问题

Answer 1 · 2023-04-11T13:04:27.000Z

@massquantity 我回看你的博客后发现你当时也有发现这个问题，请问目前GitHub上面的项目是修改过后的吗，为什么损失还是那么的大

Answer 2 · 2023-04-12T11:46:56.000Z

@massquantity 我发现你有把求平均注释掉，可为什么我得到的效果还是这么差，so sad

Answer 3 · 2023-05-11T08:05:55.000Z

@massquantity 我发现你有把求平均注释掉，可为什么我得到的效果还是这么差，so sad

我跑这个程序的时候用DPPG的方法跑的结果确实不好，但是你试试用BCQ的方法。我不知道说得对不对，我觉得是因为所有数据都是在离线训练的，用DDPG算法的时候也没有说用训练好的策略去收集新数据再训练，整个代码的运行过程都是离线训练，所以用BCQ的方法得到的结果会好一些。我也在做这个方向，或许可以交流一下

Answer 4 · 2023-05-12T07:07:04.000Z

@WinnieZM 我觉得你的想法是对的，不管怎么调整这个学习率或者增大训练轮次都没有太大的效果，ndcg的指标也很小，方便加个联系方式吗微信：625294067

Answer 5 · 2023-07-13T08:24:58.000Z

@massquantity 我发现你有把求平均注释掉，可为什么我得到的效果还是这么差，so sad

我跑这个程序的时候用DPPG的方法跑的结果确实不好，但是你试试用BCQ的方法。我不知道说得对不对，我觉得是因为所有数据都是在离线训练的，用DDPG算法的时候也没有说用训练好的策略去收集新数据再训练，整个代码的运行过程都是离线训练，所以用BCQ的方法得到的结果会好一些。我也在做这个方向，或许可以交流一下

我试了一下bcq，但是actor_loss一下子就变成了绝对值很大的负值，不知道是不是我实现的有问题。。。

Answer 6 · 2023-07-26T02:22:07.000Z

@massquantity 我发现你有把求平均注释掉，可为什么我得到的效果还是这么差，so sad

我跑这个程序的时候用DPPG的方法跑的结果确实不好，但是你试试用BCQ的方法。我不知道说得对不对，我觉得是因为所有数据都是在离线训练的，用DDPG算法的时候也没有说用训练好的策略去收集新数据再训练，整个代码的运行过程都是离线训练，所以用BCQ的方法得到的结果会好一些。我也在做这个方向，或许可以交流一下

我试了一下bcq，但是actor_loss一下子就变成了绝对值很大的负值，不知道是不是我实现的有问题。。。

这个代码我用几个方法跑都loss很大，但是BCQ至少可以看到reward是有变化的，我也不知道问题到底出现在哪里