关于q lambda的问题

Question

关于q lambda的问题

ayton-zhang opened this issue 5 months ago · 0 comments

作者您好，再q lambda的实现代码中，我想问一下如果episode是terminated的话，那么它的exp_return应该是零，但是terminated状态的reward是不是应该考虑进去？
我不太理解这步的操作：reward = rewards[:, t] + exp_qvals[:, t] - qvals[:, t] #off-policy correction，有什么理论依据吗