3.5公式错误
Opened this issue · 1 comments
StevenJokess commented
应该是
- 更新状态
$s$ 的总回报$M(s) \leftarrow M(s) + (G-V(S))$ ;
而不是 更新状态
更多可参考我项目:https://github.com/StevenJokess/d2rl/blob/master/chapter/SAC.md
QQ群交个朋友:171097552
付款表达感谢:
TOUSHINKO commented
没有,书上写得没问题,M(s)表示的就是所有G(s)的和,用'表示更新,再推导一下V'就很清楚了:
N'=N+1
M'=M+G
V=M/N
V'=M'/N'
=[M/(N+1)]+G/N'
=[1-1/(N+1)]*V+G/N'
=V-V/N'+G/N'
=V+(G-V)/N'
所以更新过程为:
N<-N+1
V<-V+(G-V)/N