强化学习论文跟进

  • 模仿学习一般指从人类专家提供的范例中提取状态-标签数据对构造训练样本,从而监督学习得到最优策略模型。
  • 多智能体强化学习是多智能体系统与强化学习的结合,主要研究多智能体在同一环境下面对不同任务的决策问题。

  • Multi-agent RL (MARL) is the integration of multi-agent systems with RL. It is at the intersection of game theory and RL/AI.

  • 强化学习在机器人控制的应用中,控制任务的奖励回事大量二值化的稀疏奖励,因此针对稀疏奖励需要从负样本中继续学习,提供训练效率。HER后验反馈,通过替换设定目标,使得每次的任务都是正样本,即使没有完成任务也可以学习。