/bandit

Primary LanguageJupyter Notebook

bandit

バンディット問題の理論とアルゴリズム

Bandit_LinUCB.ipynb

  • LinUCB法と、Thompson samplingの実装をしている。
  • LinUCB法のアルゴリズムはこのnbでの実装を元に、Calculate_Regret.ipynbで更新・修正を行っているため、そちらを参照して欲しい。

Calculate_Regret.ipynb

  • LinUCB, Thompson sampling, UCB, $\epsilon$ - greedy法に基づく性能比較をするnb

logistic_regression.ipynb

  • Logit モデルに基づいたトンプソンサンプリングの実装 ラプラス近似をしてthetaを数値計算するが、各iterationの度に逆行列を求める必要があり、online学習ではかなり時間がかかってしまうため、 thetaの更新を100回の試行ごとにしている。

今後の修正案

  • Issuesで管理する。