第十三章 DDPG算法代码实践中的一点疏漏

Question

第十三章 DDPG算法代码实践中的一点疏漏

Opened this issue 6 months ago · 0 comments

13.3 DDPG 代码实践中，在定义的DDPG类中，方法def take_action(self, state):的返回动作应该加上截断。
return action -> return np.clip(action, -self.action_bound, self.action_bound)
该动作会用于Q网络对当前时间步的q值估计，动作不应大于环境的限制（添加的噪声会导致这种情况发生，尽管概率很小）。