公式错误---https://hrl.boyuai.com/chapter/1/时序差分算法#55-q-learning-算法
Closed this issue · 1 comments
wslgqq277g commented
5.5节第一个公式中gammamax中的alpha没有角标,角标应该是t+1
wslgqq277g commented
5.5节伪代码部分缺少了在当前s情况下选择最大a的描述
Closed this issue · 1 comments
5.5节第一个公式中gammamax中的alpha没有角标,角标应该是t+1
5.5节伪代码部分缺少了在当前s情况下选择最大a的描述