- 価値ベース,離散制御アルゴリズム
- NGU
- Agent57
- 方策ベース,連続値制御アルゴリズム
- SimPLe
- 価値ベース,離散制御アルゴリズム
- Rainbow
- R2D2
- 方策ベース,連続値制御アルゴリズム
- UNREAL
- Q学習
- DQN
- Rainbow
- Ape-X
- R2D2
- Agent57
特になし
Q学習
TD学習: TD誤差を計算して状態価値を更新する(r_t + gamma * V(st+1) - V(st)
)
更新式: V(st)←V(st)+a(rt+gamma * V(st+1)-V(st))
報酬 + 学習率 * 次の状態価値 - 状態価値
Q値更新式: Q(st,at)←Q(st,at)+a(rt+gamma * maxp Q(st+1,p)-Q(st,at))
- V: 状態価値
- Q: 行動価値