starry-sky6688/MARL-Algorithms

关于涉及环境参数的一些疑问

Closed this issue · 1 comments

作者你好。
我在使用qmix算法进行自定义环境的训练时,环境代码时编写遇到一个参数 "episode_limit" ,请问这个参数的实际意义是是什么?同时arguments中的_"n_setps"_ 和 _"n_episodes"_又是什么意义?
在我的自定义环境中,一轮游戏是需要多智能体决策3600次的动作,每次执行完动作会有一个reward返回,3600次之后一轮游戏结束。请问这种情况下,上述这些参数应该如何取值?

episode_limit:一个episode的最大长度,超过这个长度就停止和环境交互
n_setps:整个训练过程,agent和环境交互多少次
n_episodes:每生成n_episodes后训练一次网络

你的环境,设置episode_limit=3600就可以了;另外两个看你自己想训练到什么程度吧