Opened this issue 4 months ago · 0 comments
以上截图的最后两步推导有些模糊。 可以补充一下细节说明G(t+1) = V(S(t+1))
因为只说明了V(s) = E[G(t)|S(t)=s],如果价值函数的输入是一个随机变量,而不是随机变量的一个样本,那么V(S)与G其实是一样的,这一点最好说一下。
同理,在3.4.3 动作价值函数的这个公式在推导上就会比较严谨。