boyu-ai/Hands-on-RL

网页版教程 3.3.2 价值函数 推导过程有些模糊

Opened this issue · 0 comments

WeChat截图_20240305170744
以上截图的最后两步推导有些模糊。
可以补充一下细节说明G(t+1) = V(S(t+1))

因为只说明了V(s) = E[G(t)|S(t)=s],如果价值函数的输入是一个随机变量,而不是随机变量的一个样本,那么V(S)与G其实是一样的,这一点最好说一下。

同理,在3.4.3 动作价值函数的这个公式在推导上就会比较严谨。
WeChat截图_20240305171430