/atmacup10

atmaCup10 https://www.guruguru.science/competitions/16

Primary LanguageJupyter Notebook

atmaCup10 [Public 9th / Private 3rd]

このリポジトリについて

環境構築

1. 適当なディレクトリにclone
2. clone後のフォルダ直下にて、`poetry install`を実行
    - poetry未導入の場合: ドキュメント(https://python-poetry.org/docs/)を参考に導入をお願いします。
    - poetry入れたくない場合は、pyproject.tomlの[tool.poetry.dependencies]を参考にライブラリのインストールをお願いします。
3. `00_input`フォルダに`atmacup10_dataset.zip`の中身を配置
    - `../00_input/atmacup10_dataset/train.csv`のような配置になります。
4. `99_bin`フォルダにfasttextのモデルを配置
    - ↓から`lid.176.bin`をダウンロードして配置します。
    - https://fasttext.cc/docs/en/language-identification.html

Notebookについて

01_nb配下に、以下2点を配置しています。

- 056_Model_nb053ベースでハイパラチューニング.ipynb
  → ハイパラチューニング&W2V特徴作成用
- 067_056のハイパラで再学習(057修正_再現性確保).ipynb
  → 056で作成したハイパラ, W2Vで学習&予測

実行手順

067_056のハイパラで再学習(057修正_再現性確保).ipynbを上から全セル実行すると、
特徴作成〜学習・予測の一連の動作が実行されます。

正しく実行されると、02_outputsフォルダ配下にnotebook番号のフォルダ(今回は067)が作成され、
その配下にsubmission.csvおよびfeature_importanceの画像が出力されます。

もし、ハイパラチューニング含めた再現を行いたい場合は、
056_Model_nb053ベースでハイパラチューニング.ipynbを全セル実行すると、
03_feature配下のチューニング済みモデル・パラメータのpickleが更新されます。
※ こちらは再現確認していません。