書籍『反実仮想機械学習(著 齋藤優太)』(出版社Web, Amazon) のサポートページです。
- 発売: 2024年4月13日
- 齋藤優太 著
- A5判/336ページ
- 定価3,520円(本体3,200円+税10%)
- ISBN 978-4-297-14029-8
- 出版社サポートサイト: https://gihyo.jp/book/2024/978-4-297-14029-8
章.節.項 | 説明 | ファイル |
---|---|---|
1.2.1 | オンライン実験による方策性能推定 | 1.2.1 online.ipynb |
1.2.2-1.2.4 | オフ方策評価におけるDM・IPS・DR推定量 | 1.2.2-1.2.4 dm-ips-dr.ipynb |
1.2.3-1.2.4 | 共通サポートの仮定が満たされない場合のオフ方策評価 | 1.2.3-1.2.4 deficient-support.ipynb |
1.2.3-1.2.4 | データ収集方策を推定する場合のオフ方策評価 | 1.2.3-1.2.4 estimated-logging-policy.ipynb |
1.3.1 | オフ方策評価におけるCIPS推定量 | 1.3.1 cips.ipynb |
1.3.2 | オフ方策評価におけるSNIPS推定量 | 1.3.2 snips.ipynb |
1.3.3 | オフ方策評価におけるSwitch-DR推定量 | 1.3.3 switch-dr.ipynb |
2.2.2 | ランキングにおけるIPS推定量 | 2.2.2 ips.ipynb |
2.3 | ランキングにおける各種重要度重みの比較 | 2.3 compare-iw.ipynb |
2.3.1 | ランキング方策のオフ方策評価におけるIIPS推定量 | 2.3.1 iips.ipynb |
2.3.2 | ランキング方策のオフ方策評価におけるRIPS推定量 | 2.3.2 rips.ipynb |
2.3.3 | ランキング方策のオフ方策評価におけるAIPS推定量 | 2.3.3 aips.ipynb |
2.3.1-2.3.3 | 行動モデルの割合が変化したときの推定量の挙動 | 2.3.1-2.3.3 behavior-model.ipynb |
3.1 | 困難な状況におけるIPS・DR推定量の精度悪化 | 3.1 ips-dr.ipynb |
3.1-3.2 | 重要度重みと周辺重要度重みの比較 | 3.1-3.2 compare-iw.ipynb |
3.2 | オフ方策評価におけるMIPS推定量 | 3.2 mips.ipynb |
3.3 | オフ方策評価におけるOffCEM推定量 | 3.3 offcem.ipynb |
4.1 | 強化学習におけるオフ方策評価 | 4.1 ope4rl.ipynb |
4.2.3 | オフ方策評価における推定量のハイパーパラメータチューニング | 4.2.3 hypara-tuning4ope.ipynb |
5.1-5.2 | オフ方策学習における異なるアプローチの性能比較 | 5.1-5.2 opl.ipynb |
5.1-5.2 | オフ方策学習における学習曲線の挙動 | 5.1-5.2 learning-curve.ipynb |
6.1 | 方策の長期性能に関するオフライン評価 | 6.1 long-term-ope.ipynb |
6.2 | プラットフォーム全体で観測される報酬を最適化する方策学習 | 6.2 cate-opl.ipynb |
*動作確認はPython 3.9.5で行っています。
**なおこれらのファイルでは、本書に掲載した実験結果よりもシミュレーション回数を増やしてさらに正確な結果を出しています。よって本書に掲載されている結果と微小に異なる数値が出ていることがありますが、傾向や主張に違いはありません。
本書の正誤情報は正誤表にて公開しています。