3.5公式错误

Question

3.5公式错误

Opened this issue a year ago · 1 comments

https://hrl.boyuai.com/chapter/1/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E5%86%B3%E7%AD%96%E8%BF%87%E7%A8%8B#35-%E8%92%99%E7%89%B9%E5%8D%A1%E6%B4%9B%E6%96%B9%E6%B3%95

应该是

更新状态 $s$ 的总回报 $M(s) \leftarrow M(s) + (G-V(S))$；

而不是更新状态 $s$ 的总回报 $M(s) \leftarrow M(s) + G$；
更多可参考我项目：https://github.com/StevenJokess/d2rl/blob/master/chapter/SAC.md
QQ群交个朋友：171097552
付款表达感谢：

Answer 1 · 2024-01-19T04:58:05.000Z

没有，书上写得没问题，M(s)表示的就是所有G(s)的和，用'表示更新，再推导一下V'就很清楚了：
N'=N+1
M'=M+G
V=M/N
V'=M'/N'
=[M/(N+1)]+G/N'
=[1-1/(N+1)]*V+G/N'
=V-V/N'+G/N'
=V+(G-V)/N'
所以更新过程为：
N<-N+1
V<-V+(G-V)/N