建议增加值分布强化学习的内容

Question

Opened this issue 3 years ago · 0 comments

王老师您好！阅读本书的时候，受益匪浅，可以说是华语版本最好的DRL教材了。在开头的时候，您介绍了DRL中的随机性。我最近看了几篇关于讨论回报中随机性的文章，感觉挺有意思的，所以想分享一下：

这个系列的工作的核心idea就是把Bellman方程抽象成Bellman算符，然后用Banach不动点分析算符的收敛性。如果时间和精力允许的话，王老师可以考虑加入这些advanced topic. 如果感觉这个主题不相关的话，就当交流一下吧。

非常感谢！