关于在别的环境应用qmix出现episodes rewards dropout的问题

Question

关于在别的环境应用qmix出现episodes rewards dropout的问题

Closed this issue 6 months ago · 2 comments

ayton-zhang commented 6 months ago

作者您好，首先感谢您优质的开源项目，代码易读性很高，且迁移到其他的环境非常方便。

我将此算法迁移到了highway-env来完成我的项目，但是我始终遇到下面图片这个问题，就是算法先收敛到一个比较好的值，但是持续一会就下降并且震荡幅度很大。

我想问一下解决这个问题是提前停止训练（在已经有比较好的结果的时候）吗？我现在在使用默认的2000000步，您在SMAC中遇到过相关的问题吗？

下面两个图片是具体的情况，第二个是我用moving average处理过的。

Answer 1 · 2024-06-07T03:33:54.000Z

正常的，off-policy算法不稳的，而且不同环境下的最优超参肯定也不一样；如果掉下来之前的reward已经达到你的预期，停止训练即可，否则就需要再调调参了

Answer 2 · 2024-07-14T17:53:01.000Z

作者您好，首先感谢您优质的开源项目，代码易读性很高，且迁移到其他的环境非常方便。

我将此算法迁移到了highway-env来完成我的项目，但是我始终遇到下面图片这个问题，就是算法先收敛到一个比较好的值，但是持续一会就下降并且震荡幅度很大。

我想问一下解决这个问题是提前停止训练（在已经有比较好的结果的时候）吗？我现在在使用默认的2000000步，您在SMAC中遇到过相关的问题吗？

下面两个图片是具体的情况，第二个是我用moving average处理过的。

您好，我目前也在尝试将Qmix应用到highway-env，方便请教下您用的highway-env是官方版本还是哪个版本呢~~可以一起交流学习下~~