PolicyGradients

Pytorch single thread implementation of REINFORCE, Trust Region Policy Optimization (TRPO) & Proximal Policy Optimization (PPO).

LunarLander-v2

python train.py \
  --algo TRPO \
  --seeds 10 20 30 \
  --env_name LunarLander-v2 \

python test.py \
  --algo PPO \
  --env_name Acrobot-v1 \
  --seed 10

python plot.py \
  --algos REINFORCE PPO TRPO \
  --env_name LunarLander-v2