/rl_serise

Primary LanguagePython

几种分类

1、理解环境 model-based RL

​ q-learning deep q network

2、不理解环境 model-free RL

1、基于概率 policy gradients

2、基于价值 q learning 、 sarsa

1、回合更新 policy gradients

2、单步更新 q learing/sarsa 效率高

1、在线学习 sarsa

2、离线学习 q learning

基础知识

状态

(S,A,R,P,r)

S:状态

A:动作

R:奖励

P:策略

r:折现系数

π 策略

π : S -> A

U:价值

QQ图片20171210143327

Bellman equation 贝尔曼方程

Delta rule

同梯度下降策略 当前状态:=当前状态 + a(理想-当前状态)

Temporal difference 时序差分

delta rule应用到bellman condition 寻找最优路径

QQ图片20171210144551

U值rule学习

QQ图片20171210145505

其中不需要state transitions,称为model-free learning

Q value

QQ图片20171210145649

Active learning

添加探索exploration , 相对于exploitation

QQ图片20171210150204

Q learning算法描述

u=771899190,3095662949&fm=173&app=25&f=JPEG

Sarsa

在线学习:每次更新q表不用max,直接用q(next_A, next_S) , next_A来自策略P下的next_S

Sarsa(λ)

每次更新q表λ步

DQN

20170612221553966

Double-DQN

解决过大估计Q值的问题

与DQN的区别在于q_target的更新方式 PDF

ddqn

Dueling-DQN

PDF

Prioritized Experience Replay

TD-ERROR=Q现实-Q预测 ,绝对值越大的样本被抽取出来训练的概率越大,加快了最优策略的学习。

Policy Gradients

基于行为的奖惩

Actor Critic