/Aprendizado-por-Reforco

Implementações de Aprendizado por Reforço

Primary LanguagePython

Implementações de Aprendizado por Reforço

Exemplo

A2C

Advantage Actor Critic com Generalized Advantage Estimator

CartPole

Após 10000 timesteps

A2C

Curva de Aprendizado:

A2C

PPO

Proximal Policy Optimization com GAE

PPO

Shared Network PPO

Shared Network Proximal Policy Optimization com GAE

Curva de Aprendizado:

PPO

Soft Actor Critic

Soft Actor Critic

BipedalWalker-v2 após 170 episódios

SAC

Pendulum-v0:

SAC

Curva de Aprendizado:

SAC