Markov Decision Process中的Reward函数

Question

LeoLuo0320 opened this issue 4 years ago · 1 comments

记忆中Reward函数通常定义为离开某个状态时获得的Reward，在第二章MDP的笔记中

在上图中 E[Rt+1|st=s] = R(s)，是否可以推出R(s)为离开状态s时的奖励

请指教谢谢

Answer 1 · 2021-06-11T05:58:00.000Z

记忆中Reward函数通常定义为离开某个状态时获得的Reward，在第二章MDP的笔记中

在上图中 E[Rt+1|st=s] = R(s)，是否可以推出R(s)为离开状态s时的奖励

请指教谢谢