reinforcement-learning-tutorials: A Python repository from YYan99

写在前面

本项目用于学习RL基础算法，尽量做到：

注释详细
结构清晰

代码结构清晰，主要分为以下几个脚本：
- env.py 用于构建强化学习环境，也可以重新normalize环境，比如给action加noise
- model.py 强化学习算法的基本模型，比如神经网络，actor，critic等
- memory.py 保存Replay Buffer，用于off-policy
- agent.py RL核心算法，比如dqn等，主要包含update和select_action两个方法，
- main.py 运行主函数
- params.py 保存各种参数
- plot.py 利用matplotlib或seaborn绘制rewards图，包括滑动平均的reward，结果保存在result文件夹中

运行环境

python 3.7.9

pytorch 1.6.0

tensorboard 2.3.0

torchvision 0.7.0

gym 0.17.3

gym环境说明

CartPole v0

通过向左或向右推车能够实现平衡，所以动作空间由两个动作组成。每进行一个step就会给一个reward，如果无法保持平衡那么done等于true，本次episode失败。理想状态下，每个episode至少能进行200个step，也就是说每个episode的reward总和至少为200，step数目至少为200