multithreading_ppo_RND

运用的强化学习算法是多线程PPO算法，可选择是否添加自适应抖动、批训练探索回报，只在gym倒立摆的游戏环境实验过，效果和原本的多线程ppo算法差不多。（pytorch）

PPO算法可以选择Method，clip or kl_divergence，输入可以是图片（把n_features删掉即可），或者ram特征。

程序实现的细节没有仔细参考原文。

forevergj/multithreading_ppo_RND