PPO_tf

Implementação da proximal policy optimization (PPO) usando tensorflow com comentários em português

Ambiente

CartPole-v0 do open ai gym
espaço de estado: contínuo espaço de ação: discreto

python3.6
tensorflow v1.4
open ai gym

python main.py

python test_policy.py

tensorboard --logdir=log

MIT LICENSE