boyu-ai/Hands-on-RL

3.5公式错误

Opened this issue · 1 comments

https://hrl.boyuai.com/chapter/1/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E5%86%B3%E7%AD%96%E8%BF%87%E7%A8%8B#35-%E8%92%99%E7%89%B9%E5%8D%A1%E6%B4%9B%E6%96%B9%E6%B3%95

应该是

  • 更新状态 $s$ 的总回报 $M(s) \leftarrow M(s) + (G-V(S))$

而不是 更新状态 $s$ 的总回报 $M(s) \leftarrow M(s) + G$
更多可参考我项目:https://github.com/StevenJokess/d2rl/blob/master/chapter/SAC.md
QQ群交个朋友:171097552
付款表达感谢:
image

没有,书上写得没问题,M(s)表示的就是所有G(s)的和,用'表示更新,再推导一下V'就很清楚了:
N'=N+1
M'=M+G
V=M/N
V'=M'/N'
=[M/(N+1)]+G/N'
=[1-1/(N+1)]*V+G/N'
=V-V/N'+G/N'
=V+(G-V)/N'
所以更新过程为:
N<-N+1
V<-V+(G-V)/N