/joyrl-book

Primary LanguageJupyter Notebook

JoyRL Book

GitHub issues GitHub stars GitHub forks GitHub license

几个问题

为什么要做JoyRL Book

JoyRL Book 侧重于帮助读者快速入门强化学习的代码实践,并辅以一套开源代码框架,便于读者适应业界应用研究风格的代码。

蘑菇书的区别?

  • 理论深度不同:蘑菇书侧重更详细更通俗的理论讲解,适合细嚼慢咽的读者,JoyRL Book则致力于方便应用的核心理论,讲解相对更加简明,适合具有一定数学基础且希望快速进入实践应用的读者。

  • 代码实战不同:蘑菇书以Jupyter Notebook形式讲解基础的算法,JoyRL Book 则配套一个更完整的代码生态,具体见关于JoyRL部分。JoyRL Book与蘑菇书各有侧重点,读者可根据自身情况按需择取。

关于JoyRL?

JoyRL旨在建立一套帮助初学者或交叉学科研究者快速入门强化学习的代码生态,主要包括JoyRL离线版JoyRL在线版JoyRL论文等几大部分:

  • JoyRL离线版:离线版开源框架。保留每个算法的完整结构,便于读者学习使用,配以中文注释,适合读者学习使用。在此基础上,编写完整的框架(例如配置多线程)帮助读者进行强化学习的高效应用。同时也是开发版框架,在开发新的算法时首先会在离线版中测试,然后同步到JoyRL在线版
  • JoyRL在线版:以PiP包的形式开发开源框架,英文注释,会比离线版更加集成,更加高效,并且会去掉一些实际并不常用的基础算法,例如Q-learning等等,适合需要大规模环境应用的读者进阶使用
  • JoyRL论文:定时收集强化学习各类子方向的前沿论文,帮助读者快速了解相关领域的研究

在线阅读

地址:https://johnjim0816.com/joyrl-book/

内容导航

代码实战请转到JoyRL离线版或者JoyRL在线版

章节 关键内容
第一章 绪论 待更新
第二章 马尔可夫决策过程 马尔可夫决策过程、状态转移矩阵
第三章 动态规划 贝尔曼方程、策略迭代、价值迭代
第四章 免模型预测 蒙特卡洛、时序差分
第五章 免模型控制 Q-learning 算法、Sarsa 算法
第六章 深度学习基础 待更新
第七章 DQN算法 目标网络、经验回放

贡献者

pic
John Jim

教程设计与算法实战
北京大学硕士

pic
Qi Wang

教程设计
上海交通大学博士生
**科学院大学硕士

pic
Yiyuan Yang

教程设计
牛津大学博士生
清华大学硕士