这里的表述好像有点问题,不过从前面也能够大抵理解意思。可能有漏字的现象
不理解的地方是:
一个好的 policy π 能够 绝大多数 V(s) 达到很大,这个可以理解。但是能否解释一下,为什么有一个π能够让所有的V(s)最大吗? 我好像明白了,也就是每一步我的action 都是最优的,那么我就能保证每一个V(s)都是极大的。但是这样显然有个问题。 就是我可能为了以后某个S的value极大,暂时放弃目前的最优action。 也就是说,不能够一味的采取贪婪的策略。 所以我觉得表述让每个状态 V(state) 最大让我有点困惑。