rl-tokyo/szepesvari-book

@pacocat さんが勉強会で発表していた内容の反映

Opened this issue · 3 comments

TODO

  • リファレンス等の内容追加(最初の方の文献等) @pacocat
  • 大域的安定解らへんの記述を追加 @pacocat
  • その他調べたり気になったになった点を追加 @pacocat
  • 例のところ: αtがこの値なのには意味があるっぽい?有限回の更新のあとにバイアスがかからないようになってるっぽい? @pacocat or @sotetsuk

参考: https://github.com/sotetsuk/algo-rl-ja/issues/477

  • 「αtがこの値」というのは αt = 1 / (t+1) のことでしょうか?

    • それであれば,αt = ct^{-η} で η = 1, c = 1 とする気持ちで(η=1だと漸近的に最良みたいなことを上で言っている),t = 0 の更新で無限に飛ばないように分母に+1をつけているだけのような気がします
  • そうだとして,素朴に更新式を見ると,n回更新を行ったときの状態3の推定価値は(i回目のrewardをr_iとして)以下のようになる気がしています(要検証).

$\sum_{i=1}^{n} r_i / 2^{n+1-i}$

原文だと以下のように言ってますが,上の式だと原文の記述とは色々矛盾してしまうので,僕が間違ってる気がしますが…(要検証)

At state 3 the TD(0) update reduces to averaging the Bernoulli rewards incurred upon leaving state 3.

何回もエピソードを繰り返すにあたって、αtは1→1/2→1→1/2→1→1/2…と変化するのかと思ってたんですが、そもそもこの認識が違うんでしょうか…?(よくわかってないです)

αtがリセットされないっぽいので,「そうだとして…」以降は気にしないでください
(普通に計算したら原文の通りになりました)