策略梯度算法Reinforce的问题
Closed this issue · 4 comments
Duke-Allen commented
starry-sky6688 commented
mask 是通过padding得到的,为了把填充的step抹掉
terinated是为了把最后一个状态上的return抹掉,最后一个状态由于是结束状态,它对应的return不应该被传到前一个状态
Duke-Allen commented
可terminated在结束状态前不都是0吗,这样在算之前状态时gamma那项不就没用了吗
starry-sky6688 commented
可terminated在结束状态前不都是0吗,这样在算之前状态时gamma那项不就没用了吗
你看上面101行,terminated=1-terminated,反过来了
Duke-Allen commented
可terminated在结束状态前不都是0吗,这样在算之前状态时gamma那项不就没用了吗
你看上面101行,terminated=1-terminated,反过来了
嗷嗷,没注意到抱歉,感谢