- 本项目基于hongzimao/deeprm,原作者还著有论文Resource Management with Deep Reinforcement Learning 。
- 原作者使用的神经网络框架是 Theano。但是Yoshua Bengio 在2017年9月28日通过公开信的形式宣布 Theano 停止更新维护。所以我准备将Theano替换为目前更为流行的 Tensorflow 框架进行二次开发。
- 除去更换框架之外,我希望对深度强化学习算法进行多种尝试。包括但不限于policy_grandient、A2C、A3C、DDPG、PPO等,每种算法以不同的文件夹名区分。
- 强化学习参考MorvanZhou/Reinforcement-learning-with-tensorflow,莫烦的视频通俗易懂,强推。