如何将动作值转换为one-hot编码

Question

Opened this issue 3 months ago · 1 comments

我自定义了一个多智能体环境，在奖励函数中需要用到动作的具体值，比如我的动作空间是离散的，我需要得到0，1，2这样具体的值，但是我在使用mappo算法跑的时候发现动作并不是具体的值，请问如何修改呢？

Answer 1 · 2024-03-29T12:42:09.000Z

PPO输出动作分布，从分布中采样动作，既然是离散动作，那就是一个离散分布，选Categorical一类的policy