@pacocat さんが勉強会で発表していた内容の反映
Opened this issue · 3 comments
sotetsuk commented
fullflu commented
-
「αtがこの値」というのは αt = 1 / (t+1) のことでしょうか?
- それであれば,αt = ct^{-η} で η = 1, c = 1 とする気持ちで(η=1だと漸近的に最良みたいなことを上で言っている),t = 0 の更新で無限に飛ばないように分母に+1をつけているだけのような気がします
-
そうだとして,素朴に更新式を見ると,n回更新を行ったときの状態3の推定価値は(i回目のrewardをr_iとして)以下のようになる気がしています(要検証).
$\sum_{i=1}^{n} r_i / 2^{n+1-i}$
原文だと以下のように言ってますが,上の式だと原文の記述とは色々矛盾してしまうので,僕が間違ってる気がしますが…(要検証)
At state 3 the TD(0) update reduces to averaging the Bernoulli rewards incurred upon leaving state 3.
fullflu commented
何回もエピソードを繰り返すにあたって、αtは1→1/2→1→1/2→1→1/2…と変化するのかと思ってたんですが、そもそもこの認識が違うんでしょうか…?(よくわかってないです)
fullflu commented
αtがリセットされないっぽいので,「そうだとして…」以降は気にしないでください
(普通に計算したら原文の通りになりました)