ShangtongZhang/reinforcement-learning-an-introduction

chapter2_content.tex exercise 2.3 问题

RocStone opened this issue · 1 comments

首先感谢老哥写了这么优质的exercise solution

在exercise 2.3处,我有一个问题,希望老哥有空解答一下
当 t 趋于无穷大时u,varepsilon 等于0.01会让我们有99%的概率选中最好的 action
而 varepsilon 等于0.1 只提供90%的概率,两者差距并没有你解答中的 10 倍这么大
是我哪里理解错了吗?

No, I never write any solution.