ChuaCheowHuan/PBT_MARL_watered_down

My attempt to reproduce a water down version of PBT (Population based training) for MARL (Multi-agent reinforcement learning) using DDPPO (Decentralized & distributed proximal policy optimization) from ray[rllib].

Jupyter NotebookMIT

Stargazers

51616
https://vistec.ist/
anle2017
christian-michler
Eric-mingjie
CMU CS PhD
hccz95
hsurebecca831
tangh18
Tsinghua University
tokarev-i-v