LeoLuo0320 opened this issue 4 years ago · 1 comments
记忆中Reward函数通常定义为离开某个状态时获得的Reward,在第二章MDP的笔记中
在上图中 E[Rt+1|st=s] = R(s), 是否可以推出R(s)为离开状态s时的奖励
请指教 谢谢
记忆中Reward函数通常定义为离开某个状态时获得的Reward,在第二章MDP的笔记中 在上图中 E[Rt+1|st=s] = R(s), 是否可以推出R(s)为离开状态s时的奖励 请指教 谢谢