Opened this issue 3 months ago · 1 comments
我自定义了一个多智能体环境,在奖励函数中需要用到动作的具体值,比如我的动作空间是离散的,我需要得到0,1,2这样具体的值,但是我在使用mappo算法跑的时候发现动作并不是具体的值,请问如何修改呢?
PPO输出动作分布,从分布中采样动作,既然是离散动作,那就是一个离散分布,选Categorical一类的policy