PPO_tf
Implementação da proximal policy optimization (PPO) usando tensorflow com comentários em português
Ambiente
CartPole-v0 do open ai gym
espaço de estado: contínuo
espaço de ação: discreto
Dependencias
python3.6
tensorflow v1.4
open ai gym
Treinamento
python main.py
Testar politica treinada
python test_policy.py
Tensorboard
tensorboard --logdir=log
LICENÇA
MIT LICENSE