代码说明 描述 这是一个我学习《深入浅出强化学习-原理入门》的学习代码仓库,主要是一些书上的例子和书后面的练习题的代码 目录 1-gym二次开发(gym develop) gym二次开发相关文件配置 改写gym下的core.py文件 利用gym二次开发的一个网格游戏例子 利用gym二次开发的一个迷宫游戏例子 2-马尔科夫决策过程(Markov Decision Process) 学习生活的例子 里面对于迷宫的环境模拟的课后作业 3-动态规划(Dynamic Program) 网格游戏在均匀策略下的策略评估例子 策略迭代算法流程图 网格游戏在贪婪策略下的策略迭代例子 值迭代算法流程图 网格游戏在贪婪测略下的值迭代例子 迷宫游戏在动态规划下的课后作业 4-蒙特卡洛值迭代(Monte Carlo) 蒙特卡罗方法采样 蒙特卡罗方法评估 5-时间差分值迭代(Temporal Difference) Q-learning算法流程图 Sarsa算法流程图 Sarsa(λ)算法流程图 利用gym二次开发的一个推箱子游戏例子 利用时间差分学习推箱子实例 6-值函数逼近(Value Function Approximate) Deep Q-learning算法流程图 Deep Q-learning算法模板 利用Deep Q-learning写的flappy游戏