datawhalechina/easy-rl

Markov Decision Process中的Reward函数

LeoLuo0320 opened this issue · 1 comments

记忆中Reward函数通常定义为离开某个状态时获得的Reward,在第二章MDP的笔记中
image

image
在上图中 E[Rt+1|st=s] = R(s), 是否可以推出R(s)为离开状态s时的奖励

请指教 谢谢

记忆中Reward函数通常定义为离开某个状态时获得的Reward,在第二章MDP的笔记中
image

image
在上图中 E[Rt+1|st=s] = R(s), 是否可以推出R(s)为离开状态s时的奖励

请指教 谢谢

image