agi-brain/xuance

如何将动作值转换为one-hot编码

Opened this issue · 1 comments

我自定义了一个多智能体环境,在奖励函数中需要用到动作的具体值,比如我的动作空间是离散的,我需要得到0,1,2这样具体的值,但是我在使用mappo算法跑的时候发现动作并不是具体的值,请问如何修改呢?
Uploading 1711528960680.png…

PPO输出动作分布,从分布中采样动作,既然是离散动作,那就是一个离散分布,选Categorical一类的policy