Implementações de Aprendizado por Reforço

A2C

Advantage Actor Critic com Generalized Advantage Estimator

Após 10000 timesteps

Curva de Aprendizado:

Proximal Policy Optimization com GAE

Shared Network Proximal Policy Optimization com GAE

Curva de Aprendizado:

BipedalWalker-v2 após 170 episódios

Pendulum-v0:

Curva de Aprendizado: