Opened this issue 6 years ago · 2 comments
https://subaochen.github.io/deeplearning/2019/06/21/gambler-problem/
我在0.55时计算出来也是这个,但是如果对V进行随机初始化就不一样了
谢谢告知!我抽空实验一下。