madvn/DDPG

Deep Deterministic Policy Gradients in TF r2.0

Python

DDPG

Implementing algorithm from

Lillicrap, Timothy P., Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, and Daan Wierstra. "Continuous control with deep reinforcement learning." arXiv preprint arXiv:1509.02971 (2015). https://arxiv.org/abs/1509.02971

Modify and/or run ddpg/trainer.py

Dependencies: Tensorflow r2.0, numpy, matplotlib, gym

TODO

noiseless evals every X training episodes
parametrize network architecture
better hyperparams for Pendulum
more tasks

Results

From 10 runs of ddpg/trainer.py as is