DQN和AC算法中的q_targets的loss计算为什么最后要乘(1-done)呢?
superbignut opened this issue · 2 comments
superbignut commented
本来的算法中是没有这个因子的,这么做是因为最终状态没有下一个状态了,所以Q是0吗?
Aegis1863 commented
我的理解是没有下个状态就结束了,后面的不再记录,进入下一回合。另外最新gym还多了一个truncated状态,表示是否出界,我改写成(1 - (dones | truncated))
了
YYYMarshal commented