-
この本の7章の「LinUCB 方策」/トンプソンサンプリング、及Logistic regression ver.を実装している。
-
thompson sampling の多変量正規分布からの乱数発生はhttps://analytics-note.xyz/programming/python-multivariate-normal-rvs/を参考にしました。 乱数発生の方法でリグレットが変わってくるという記述があり、よくわかっていない。
- LinUCB法と、Thompson samplingの実装をしている。
- LinUCB法のアルゴリズムはこのnbでの実装を元に、Calculate_Regret.ipynbで更新・修正を行っているため、そちらを参照して欲しい。
- LinUCB, Thompson sampling, UCB,
$\epsilon$ - greedy法に基づく性能比較をするnb
- Logit モデルに基づいたトンプソンサンプリングの実装 ラプラス近似をしてthetaを数値計算するが、各iterationの度に逆行列を求める必要があり、online学習ではかなり時間がかかってしまうため、 thetaの更新を100回の試行ごとにしている。
- Issuesで管理する。