proximal-policy-optimization

There are 190 repositories under proximal-policy-optimization topic.

MorvanZhou/Reinforcement-learning-with-tensorflow
Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学
Language:Python8.7k 288 1925k
vwxyzjn/cleanrl
High-quality single file implementation of Deep Reinforcement Learning algorithms with research-friendly features (PPO, DQN, C51, DDPG, TD3, SAC, PPG)
Language:Python4.6k 34 170543
ikostrikov/pytorch-a2c-ppo-acktr-gail
PyTorch implementation of Advantage Actor Critic (A2C), Proximal Policy Optimization (PPO), Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation (ACKTR) and Generative Adversarial Imitation Learning (GAIL).
Language:Python3.5k 68 229831
nikhilbarhate99/PPO-PyTorch
Minimal implementation of clipped objective Proximal Policy Optimization (PPO) in PyTorch
Language:Python1.5k 9 59328
Khrylx/PyTorch-RL
PyTorch implementation of Deep Reinforcement Learning: Policy Gradient methods (TRPO, PPO, A2C) and Generative Adversarial Imitation Learning (GAIL). Fast Fisher vector product TRPO.
Language:Python1.1k 27 36184
uvipen/Super-mario-bros-PPO-pytorch
Proximal Policy Optimization (PPO) algorithm for Super Mario Bros
Language:Python1.1k 28 24193
TianhongDai/reinforcement-learning-algorithms
This repository contains most of pytorch implementation based classic deep reinforcement learning algorithms, including - DQN, DDQN, Dueling Network, DDPG, SAC, A2C, PPO, TRPO. (More algorithms are still in progress)
Language:Python649 15 10104
cpnota/autonomous-learning-library
A PyTorch library for building deep reinforcement learning agents.
Language:Python640 23 10472
ChenglongChen/pytorch-DRL
PyTorch implementations of various Deep Reinforcement Learning (DRL) algorithms for both single agent and multi-agent.
Language:Python505 13 7106
Omegastick/pytorch-cpp-rl
PyTorch C++ Reinforcement Learning
Language:C++505 21 2083
zuoxingdong/lagom
lagom: A PyTorch infrastructure for rapid prototyping of reinforcement learning algorithms.
Language:Jupyter Notebook373 16 8231
idreesshaikh/Autonomous-Driving-in-Carla-using-Deep-Reinforcement-Learning
Deep Reinforcement Learning (PPO) in Autonomous Driving (Carla) [from scratch]
Language:Python233 5 2048
miroblog/tf_deep_rl_trader
Trading Environment(OpenAI Gym) + PPO(TensorForce)
Language:Python231 14 964
lcswillems/torch-ac
Recurrent and multi-process PyTorch implementation of deep reinforcement Actor-Critic algorithms A2C and PPO
Language:Python190 8 664
CherryPieSexy/imitation_learning
PyTorch implementation of some reinforcement learning algorithms: A2C, PPO, Behavioral Cloning from Observation (BCO), GAIL.
Language:Python128 5 314
jcwleo/curiosity-driven-exploration-pytorch
Curiosity-driven Exploration by Self-supervised Prediction
Language:Python128 3 1130
uvipen/Contra-PPO-pytorch
Proximal Policy Optimization (PPO) algorithm for Contra
Language:Python128 10 130
adik993/ppo-pytorch
Proximal Policy Optimization(PPO) with Intrinsic Curiosity Module(ICM)
Language:Python124 4 426
MarcoMeter/episodic-transformer-memory-ppo
Clean baseline implementation of PPO using an episodic TransformerXL memory
Language:Python112 4 1213
MarcoMeter/recurrent-ppo-truncated-bptt
Baseline implementation of recurrent PPO using truncated BPTT
Language:Jupyter Notebook107 4 1114
Luca96/carla-driving-rl-agent
Code for the paper "Reinforced Curriculum Learning for Autonomous Driving in CARLA" (ICIP 2021)
Language:Python96 2 1823
pekaalto/sc2aibot
Implementing reinforcement-learning algorithms for pysc2 -environment
Language:Python90 9 414
navuboy/gail_gym
Implementation of Generatve Adversarial Imitation Learning (GAIL) for classic environments from OpenAI Gym.
Language:Python85 2 327
TianhongDai/distributed-ppo
This is an pytorch implementation of Distributed Proximal Policy Optimization(DPPO).
Language:Python60 2 212
asieradzk/RL_Matrix
Reinforcement Learning Agents in .NET
Language:C#51 9 52
lnpalmer/PPO
PyTorch implementation of Proximal Policy Optimization
Language:Python50 2 09
Phoenix-Shen/ReinforcementLearning
强化学习算法库，包含了目前主流的强化学习算法(Value based and Policy based)的代码，代码都经过调试并可以运行
Language:Python49 1 311
RLOpensource/Relational_Deep_Reinforcement_Learning
Language:Python49 6 15
bmazoure/ppo_jax
Jax implementation of Proximal Policy Optimization (PPO) specifically tuned for Procgen, with benchmarked results and saved model weights on all environments.
Language:Python47 1 31
wisnunugroho21/reinforcement_learning_ppo_rnd
Deep Reinforcement Learning by using Proximal Policy Optimization and Random Network Distillation in Tensorflow 2 and Pytorch with some explanation
Language:Python47 2 65
cxxgtxy/POP3D
Policy Optimization with Penalized Point Probability Distance: an Alternative to Proximal Policy Optimization
Language:Python44 6 02
elsheikh21/car-racing-ppo
Implementation of a Deep Reinforcement Learning algorithm, Proximal Policy Optimization (SOTA), on a continuous action space openai gym (Box2D/Car Racing v0)
Language:Python40 1 06
lucidrains/phasic-policy-gradient
An implementation of Phasic Policy Gradient, a proposed improvement of Proximal Policy Gradients, in Pytorch
Language:Python40 3 17
TianhongDai/google-football-pytorch
It's the pytorch implementation of google research football.
Language:Python38 1 011
wisnunugroho21/asynchronous_impala_PPO
Multi-Agent Deep Reinforcement Learning by using Asynchronous & Impala Proximal Policy Optimization in Pytorch with some explanation
Language:Python30 2 26
jw1401/PPO-Tensorflow-2.0
Proximal Policy Optimization with Tensorflow 2.0
Language:Python29 2 07

proximal-policy-optimization

MorvanZhou/Reinforcement-learning-with-tensorflow

vwxyzjn/cleanrl

ikostrikov/pytorch-a2c-ppo-acktr-gail

nikhilbarhate99/PPO-PyTorch

Khrylx/PyTorch-RL

uvipen/Super-mario-bros-PPO-pytorch

TianhongDai/reinforcement-learning-algorithms

cpnota/autonomous-learning-library

ChenglongChen/pytorch-DRL

Omegastick/pytorch-cpp-rl

zuoxingdong/lagom

idreesshaikh/Autonomous-Driving-in-Carla-using-Deep-Reinforcement-Learning

miroblog/tf_deep_rl_trader

lcswillems/torch-ac

CherryPieSexy/imitation_learning

jcwleo/curiosity-driven-exploration-pytorch

uvipen/Contra-PPO-pytorch

adik993/ppo-pytorch

MarcoMeter/episodic-transformer-memory-ppo

MarcoMeter/recurrent-ppo-truncated-bptt

Luca96/carla-driving-rl-agent

pekaalto/sc2aibot

navuboy/gail_gym

TianhongDai/distributed-ppo

asieradzk/RL_Matrix

lnpalmer/PPO

Phoenix-Shen/ReinforcementLearning

RLOpensource/Relational_Deep_Reinforcement_Learning

bmazoure/ppo_jax

wisnunugroho21/reinforcement_learning_ppo_rnd

cxxgtxy/POP3D

elsheikh21/car-racing-ppo

lucidrains/phasic-policy-gradient

TianhongDai/google-football-pytorch

wisnunugroho21/asynchronous_impala_PPO

jw1401/PPO-Tensorflow-2.0