笔记提出疑问

Question

笔记提出疑问

Closed this issue 4 years ago · 3 comments

这里的表述好像有点问题，不过从前面也能够大抵理解意思。可能有漏字的现象
不理解的地方是：
一个好的 policy π 能够绝大多数 V（s) 达到很大，这个可以理解。但是能否解释一下，为什么有一个π能够让所有的V（s）最大吗？我好像明白了，也就是每一步我的action 都是最优的，那么我就能保证每一个V(s）都是极大的。但是这样显然有个问题。就是我可能为了以后某个S的value极大，暂时放弃目前的最优action。也就是说，不能够一味的采取贪婪的策略。所以我觉得表述让每个状态 V（state）最大让我有点困惑。

qiwang067 commented 4 years ago

不客气

Answer 1 · 2020-10-25T14:19:10.000Z

感谢提问，建议您看下本章节的 value iteration，里面有具体的过程，应该能解答您的疑惑

Answer 2 · 2020-10-25T15:08:36.000Z

我明白了，多谢