MachineLP/Tensorflow-

学习笔记TF037:实现强化学习策略网络.md

biandh opened this issue · 1 comments

作者给的输出结果是reward大于200,可是实际运行时,最多只能到200,不知道您这边有观察过么?

是的,只能到200