rl_serise: A Python repository from mutha008

几种分类

1、理解环境 model-based RL

q-learning deep q network

2、不理解环境 model-free RL

1、基于概率 policy gradients

2、基于价值 q learning 、 sarsa

1、回合更新 policy gradients

2、单步更新 q learing/sarsa 效率高

1、在线学习 sarsa

2、离线学习 q learning

基础知识

状态

（S，A，R，P，r）

S：状态

A：动作

R：奖励

P：策略

r：折现系数

π 策略

π ： S -> A

U：价值

Bellman equation 贝尔曼方程

Delta rule

同梯度下降策略当前状态:=当前状态 + a(理想-当前状态)

Temporal difference 时序差分

delta rule应用到bellman condition 寻找最优路径

U值rule学习

其中不需要state transitions，称为model-free learning

Q value

Active learning

添加探索exploration , 相对于exploitation

Q learning算法描述

Sarsa

在线学习：每次更新q表不用max，直接用q(next_A, next_S) ， next_A来自策略P下的next_S

Sarsa(λ)

每次更新q表λ步

DQN

Double-DQN

解决过大估计Q值的问题

与DQN的区别在于q_target的更新方式 PDF

Dueling-DQN

PDF

Prioritized Experience Replay

TD-ERROR=Q现实-Q预测，绝对值越大的样本被抽取出来训练的概率越大，加快了最优策略的学习。

Policy Gradients

基于行为的奖惩

mutha008/rl_serise