关于q lambda的问题
ayton-zhang opened this issue · 0 comments
ayton-zhang commented
作者您好,再q lambda的实现代码中,我想问一下如果episode是terminated的话,那么它的exp_return应该是零,但是terminated状态的reward是不是应该考虑进去?
我不太理解这步的操作:reward = rewards[:, t] + exp_qvals[:, t] - qvals[:, t] #off-policy correction,有什么理论依据吗