/bandit

バンディット問題シミュレーション用のコード

Primary LanguagePython

バンディット問題シミュレーション

有名なアルゴリズムを使ったバンディットシミュレーション

使い方

1. パラメータを設定する

main.pyにてシミュレーション回数(trial),ステップ数(step),腕の本数(K)を設定してください.

def main():
    trial = 1000
    step = 100000
    K = 4

2. 検証したいアルゴリズムを選択する

simulator.pyself.policyで検証したいアルゴリズムを入れてください.

アルゴリズム一覧

  • random
  • ε-greedy(ε=0.01)
  • ThompsonSampling
  • UCB1
  • UCB1-Tuned

3. トレーニング実行(CSV生成)

生成したCSVファイルをlogフォルダの現在時刻を示すフォルダ(例:202209200132)に保存します. また同時にlog.txtにシミュレーション回数(trial),ステップ数(step),腕の本数(K)の情報も保存します.

python main.py

4. 生成したCSVファイルをプロットする

グラフのタイトルとプロットしたいCSVが格納されているフォルダ名(例:202209200132)を指定してグラフのプロットを行います. 生成したグラフはCSVと同じ階層にcsv_plot.pngという名前で保存されます.

python plot.py [グラフのtitle] [プロットしたいCSVが格納されているフォルダ名]