datawhalechina/easy-rl

第三章第四节书中60页价值函数是单调的证明过程是不是有问题?

lixinliu1995 opened this issue · 2 comments

image

上面红框式子是取Q函数的最大值;下面红框式子中对Q函数进行了加权求和,π函数减去一个很小的数,除以一个比1小的数。我想问下这不等式是怎么成立的?

image
补充

@lixinliu1995 您可以参考下面的推导过程:

image

image