wangshusen/DRL

建议增加值分布强化学习的内容

Opened this issue · 0 comments

王老师您好!阅读本书的时候,受益匪浅,可以说是华语版本最好的DRL教材了。在开头的时候,您介绍了DRL中的随机性。我最近看了几篇关于讨论回报中随机性的文章,感觉挺有意思的,所以想分享一下:

https://arxiv.org/abs/1707.06887

https://arxiv.org/abs/1710.10044

https://arxiv.org/abs/1806.06923

https://arxiv.org/abs/1911.02140

https://proceedings.neurips.cc//paper/2020/file/b6f8dc086b2d60c5856e4ff517060392-Paper.pdf

https://arxiv.org/abs/1902.08102

这个系列的工作的核心idea就是把Bellman方程抽象成Bellman算符,然后用Banach不动点分析算符的收敛性。如果时间和精力允许的话,王老师可以考虑加入这些advanced topic. 如果感觉这个主题不相关的话,就当交流一下吧。

非常感谢!