策略梯度算法Reinforce的问题

Question

Closed this issue 3 years ago · 4 comments

您好，代码上有一处地方不太理解，所以想请教一下。
reinforce.py中计算每条经验的returns时，为什么要乘terminated？不是已经有mask了吗？

Answer 1 · 2022-01-17T03:43:09.000Z

mask 是通过padding得到的，为了把填充的step抹掉

terinated是为了把最后一个状态上的return抹掉，最后一个状态由于是结束状态，它对应的return不应该被传到前一个状态

Answer 2 · 2022-01-17T04:25:32.000Z

可terminated在结束状态前不都是0吗，这样在算之前状态时gamma那项不就没用了吗

Answer 3 · 2022-01-17T06:23:42.000Z

可terminated在结束状态前不都是0吗，这样在算之前状态时gamma那项不就没用了吗

你看上面101行，terminated=1-terminated，反过来了

Answer 4 · 2022-01-17T06:25:13.000Z

可terminated在结束状态前不都是0吗，这样在算之前状态时gamma那项不就没用了吗

你看上面101行，terminated=1-terminated，反过来了

嗷嗷，没注意到抱歉，感谢