boyu-ai/Hands-on-RL

公式错误---https://hrl.boyuai.com/chapter/1/时序差分算法#55-q-learning-算法

Closed this issue · 1 comments

5.5节第一个公式中gammamax中的alpha没有角标,角标应该是t+1

5.5节伪代码部分缺少了在当前s情况下选择最大a的描述