/Learn_RL_algorithms

深度强化学习

Primary LanguagePython

RL_Learn

深度强化学 清华大学 :https://pypi.tuna.tsinghua.edu.cn/simple/ her:HER(Hindsight experience replay)算法是Open AI 提出的用来解决反馈奖励稀疏的存储样本的数据结构, 采用了渐进式的学习方法,通过调整任务难度让模型渐进式的学习, 不断增强策略的能力.HER有助于鼓励人工智能系统像人类一样从错误中学习,两者的主要区别在于人工智能在面对失败的时候不会像一些脆弱的人类那样伤心沮丧