学习笔记TF037:实现强化学习策略网络.md

Question

biandh opened this issue 7 years ago · 1 comments

作者给的输出结果是reward大于200，可是实际运行时，最多只能到200，不知道您这边有观察过么？

Answer 1 · 2017-12-26T08:00:26.000Z

是的，只能到200