Cassava Leaf Disease Classification コンペのリポジトリです。
nbというディレクトリに、今回使用したNotebookをおいてあります。
ただし、下の方針にもある通り、今回はKaggle上でほぼ完結させているため、gitは使用していません。ですので、nbの中においてあるNotebookはほぼ全て最新のバージョンのみとなります。
このコンペの振り返り記事もQiitaにありますので、ぜひご覧ください。より流れを追いやすくなっております。こちらのリンクから飛べます。
※E資格に関わる内容を含むため、nb007に関する記述はカットしてあります。
- private: 0.8977
- rank: 415/3900 (top11%)
あと25人、点数にしてあと0.0001でした。悔しい...
- Kaggle上で全てを完結させる
- Version名は常にVersion○に統一して、README.mdに簡単に内容を書き込む
- issue boardに思いついたアイデアを書いていく。
- 詳しい実験などを行った際には、その旨をREADMEに書き込み、詳しい実験結果はそのNoteBookの一番上にoverviewとして書き込む -> README.mdだけで事足りたので使いませんでした。
アフリカ第二の炭水化物供給源であるキャッサバは、過酷な条件に耐えることができるため、零細農家によって栽培されている重要な食糧安全保障作物である。サハラ以南のアフリカでは、少なくとも80%の家庭用農場がこのでんぷん質の根を栽培していますが、ウイルス性の病気が収量不良の主な原因となっています。データサイエンスの助けを借りれば、一般的な病気を特定して治療することが可能になるかもしれません。
既存の病気の検出方法では、農家は政府が出資する農業専門家の協力を得て、植物を目視で検査して診断しなければならない。この方法は、労働集約的で、供給量が少なく、コストがかかるという問題があります。加えて、アフリカの農家は低帯域幅のモバイル品質のカメラしか利用できない可能性があるため、農家のための効果的なソリューションは、大きな制約の下でうまく機能しなければなりません。
このコンテストでは、ウガンダの定期調査で収集された21,367枚のラベル付き画像のデータセットを紹介します。ほとんどの画像は、農家が庭の写真を撮影しているところからクラウドソーシングされ、カンパラのマケレレレ大学のAI研究室と共同で国立作物資源研究所(NaCRRI)の専門家が注釈を付けたものだ。これは、農家が実際の生活の中で診断する必要があるものを最も現実的に表現したフォーマットです。
あなたの課題は、キャッサバの画像を4つの病気のカテゴリに分類するか、健康な葉を示す5つ目のカテゴリに分類することです。あなたの助けがあれば、農家は病気にかかった植物を迅速に特定することができ、取り返しのつかないダメージを与える前に作物を救うことができるかもしれません。
比較的安価なカメラの写真を使って、キャッサバの植物の問題点を特定できますか?このコンテストでは、多くのアフリカ諸国の食糧供給に重大な被害をもたらすいくつかの病気を区別することに挑戦します。いくつかのケースでは、主な救済策は、それ以上の広がりを防ぐために感染した植物を燃やすことですが、これは、迅速な自動化されたターンアラウンドを農家にとって非常に有用なものにすることができます。
ファイル
train/test]_images: 画像ファイルです。テスト画像のフルセットは、スコアリングのために提出されたときにのみノートブックに表示されます。テストセットには約15,000枚の画像が含まれています。
train.csv
image_id: 画像ファイル名。
label: 病気のIDコード。
sample_submission.csv 開示されたテストセットの内容に応じて適切にフォーマットされたサンプル提出物。
image_id: 画像ファイル名
label: 病気の予測されるIDコード。
train/test]_tfrecords: tfrecord形式の画像ファイル。
label_num_to_disease_map.json。各疾患コードと実際の疾患名とのマッピング。
- 参考にした論文の一覧。決して全てを理解してるわけではない。
No | Name | Detail | Date | link |
---|---|---|---|---|
01 | mixup: Beyond Empirical Risk Minimization | 画像とラベルを同じ割合で混ぜるAugmentation手法 | 27 Apr 2018 | link |
02 | CutMix: Regulatization Strategy to Train Strong Classifiers with Localizable Features | 画像を混ぜる領域を矩形領域にしたもの。cutoutによって画像の情報量が落ちることに対する解決策 | 7 aug 2019 | link |
03 | FMix: Enhancing Mixed Sample Data Augmentation | Cutmixから、画像の混合領域を曲線にしたもの | 24 Jun 2020 | link |
04 | SnapMix: Semantically Proportional Mixing for Augmenting Fine-grained Data | Semantically Proportional Mixing の略で、画像を混ぜる際に、ラベルの比率を画像の面積比にするのではなく、class activation map(CAM) を用いて、比率を定めることにしたもの | 9 Dec 2020 | link |
05 | Robust Bi-Tempered Ligistic Loss Based on Bregman Divergence | logistic loss にtemperatureパラメータを導入することにより、ラベルノイズに引っ張られずに学習することを可能にした損失関数 | 23 Sep 2019 | link |
06 | Can Cross Entropy Loss Be Robust to Label Noise? | cross entropy loss をテイラー展開することにより、ラベルにノイズがある中でも精度をあげることを可能にした損失関数について。2次で止めるとMSE(Mean Squared Error)になるなど、解析が面白い。 | 2 Oct 2020 | link |
07 | EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks | 言わずと知れたEfficientNetについて。深さ・幅・解像度を適切にスケールアップすることで効率的に精度を改善しているモデル。 | 11 Sep 2020 | link |
08 | An Image is Worth 16x16 Words: Transformers for Image | Vision Transformerについて。画像を分割してTransformerの入力にしている。 | 22 Oct 2020 | link |
09 | Training data-efficient image transformers & distillation through attention | Data-efficient Image Transformers(DeiT)について。Vision Transformerは莫大な量の画像でpretrainする必要があったため、それを解消した。ImageNetの画像だけでモデルを作ったらしい。また、distillation(蒸留)も導入している。 | 15 Jan 2021 | link |
10 | Sharpness-Aware Minimization for Efficiently Improving Generalization | SAM optimizerについて。周辺領域で最大損失であるところの勾配を使ってパラメータを更新する手法。2回back prop をする必要がある。 | 4 Dec 2020 | link |
11 | Confident Learning: Estimating Uncertainty in Dataset Labels | ラベルノイズを理論的に検出する方法について。 | 15 Feb 2021 | link |
- Discussionで話題に上がったりしたものの、あまり読めなかった論文
- Data-Efficient Deep Learning Method for Image Classification Using Data Augmentation, Focal Cosine Loss, and Ensemble
- Learning Not to Learn in the Presence of Noisy Labels
- Symmetric Cross Entropy for Robust Learning with Noisy Labels
- Robustness of Accuracy Metric and its Inspirations in Learning with Noisy Labels
- join!
- 管理方法についてひたすら悩む。
- 明日はコードを書かなければ...
- GitHubの使い方を掴むためにひたすら動かしてみた。issue管理うまくいきそう。
- とりあえずEDA(cassava_EDA)
- train画像は21397枚で、test画像はsubmit時に裏で与えられるみたい。
- ベースラインのモデルに悩む。とりあえずEfficient Net B0でいいかな。軽いし。
- MoAメダリストの反省会を聞いてモチベが上がった。全部試す精神は本当に大切。
- nb001(ver1)。とりあえずDatasetまで作った。早めにサブしたい。
- nb001
- Dataloaderまで作った。
- モデルの定義の仕方がわからず、結局次からベースラインを見ることにした。
- nb001
- EDAの後に全ての画像のラベルを揃えてsubしてみた。trainとpublicの分布はほぼ同じとみていい。privateもほぼ同じだろう。
- nb001
- LBの結果を追記。
- nb003
- ver2
- Y.Nakamaさんのベースラインを写経。Resnext50_32x4dのpretrain有り。
- CV=0.87321, LB=0.880
- ver3
- optimizerをAdamからAdaBeliefに変えてみる。
- CV=0.87321, LB=0.879 ほぼ変わらん。なぜ??? <- Schedulerがlrをいい感じに変えているためにoptimizerの差が打ち消されている可能性が大きい。
- ver2
- nb005
- ver1
- EfficientNet-B0を実装。実行時間が30分ぐらい減った!!
- AdaBliefはそのまま。
- CV=0.85288, LB=0.861
- モデルは軽い方がいいため、多少精度は落ちるかもしれないがEfficientNet_B0で実験をしていく。
CVよりLBスコアの方が高いのはなぜ?若干違和感がある。 <- CVのラベリングがおかしい(Noisyな)可能性がある。
- ver1
- nb005
- ver2
- n_foldを4に落とした。
- CV=0.85129, LB=0.855
- LBが予想より低い。これは誤差と捉えていいのかは検討の余地がありそう。
- ver3
- batch_sizeを大きくすれば大きな時間短縮につながるのでは?
- どうやら、batch_sizeを大きくするならば学習率も大きくしないといけないらしい。
- ここでは、「バッチサイズと学習率を同様に大きくすれば高速化できる」とある。
- というわけで、とりあえずbatch_size: 32->64, lr: 1e-4->2e-4としてみる。
- CV=0.85507, LB=0.862
- 精度は若干上がってるけど、5分しか実行時間が短縮されてない。なぜ??? <= そりゃ倍速にはならんだろ...
- ver5(ver4は失敗)
- batch_size: 64->128, lr: 2e-4->4e-4としてみる。
- さらに実行時間が4分程度減った。8100秒ぐらい。
- 128がメモリの限界らしい。256にしたらエラーになった。
- CV=0.85657, LB=0.862だった。伸び幅は小さかった...
- ver6
- epoch3までは最終層以外凍結し、lr=4e-3で学習させ、epoch4から全て解凍し、lr=4e-4で学習させてみる。
- epoch3がほぼ無駄になっていたので止めた
- ver7
- 凍結するのをepoch2までにした。
- ver2
- nb005
- ver7
- epoch2はほとんど学習していなかった。最初の学習率を10倍にしたからか?
- CV=0.85619, LB=0.867
- CVはほとんど変わっていないが、LBスコアは改善された。いいとは思うんだけど理由がよくわからん。特徴量抽出器がいい感じに残ったからか?
- 最初のlrも4e-4で揃えていいかもしれない。ver5はepoch8~は過学習してるみたいだし。
- あと、あんまり関係ないけどGPUがもう切れそう。早い...
- ver8
- パラメータの解凍をepoch2に早めた。
- なせか実行時間が6分ぐらい減った。なぜ???
- CV=0.85718, LB=0.868
- スコアがよくなってる!!
- ver7
- カエルさんのDiscussionよると、データセットのラベルがNoisyらしい。外れ値に対するpenaltyを和らげたtempered lossというものが有効らしい。それについてのGoogleの論文->リンク
- GPUが明らかに足りてないので、とりあえずcolabに移行してみて、ダメだったらGCPを使いたい。
- Google Colabに移行しようとしたら、Kaggle APIのversionが古いらしくうまくいかなかった。ここを参考にして強制的にupgradeしたら一応解決した。
- google colabの設定に死ぬほど時間がかかった!!!!!
- google colabだとbatch_sizeが64で限界っぽい。
- google colabだとフルで実験を回せない... やはりGCPがいいか。
- 画像コンペでの心得をいくつか聞いたのでメモ。
- モデル選択が非常に重要。確かにそうなので、他のモデルに移行する時期も決めた方が良さげ。
- 最初のfoldだけで実験するといい。だいぶ時間の節約になりそう。
- モデル選択が非常に重要。確かにそうなので、他のモデルに移行する時期も決めた方が良さげ。
- nb005
- ver8.5
- batch_sizeを64に落として学習してみた。fold1でCV=0.86019。これはver7とほぼ同じ。
- ここまでの実験では、batch_sizeは32よりは64がいいが、128にしても大差はなさそう、といった感じ。
- ver8.5
- GCPへの移行とE資格対策にかなりの時間を費やしてしまった。
- nb005
- ver 9
- bi_tempered_lossをとりあえず実装し、動くことを確認。t1とt2が1の時にうまく動作しない...
- ver 9
-
nb 005
- ver 10
- ver8からの更新。(bi tempered lossは一旦消している)
- schedulerを使う時にはAdamが一番性能が良いことがわかったため、schedulerをオンにして、optimizerをAdamに変更する。
- CV=0.86449(fold1)。かなりスコアがよくなった。
- ver8からの更新。(bi tempered lossは一旦消している)
- ver 11
- 公開KernelのAugmentationが良い感じだったので真似してみた。
- CV=0.86523(fold1)。スコアが改善された。
- 公開KernelのAugmentationが良い感じだったので真似してみた。
- ver 13(12は失敗)
- 画像のsizeを512にしようとしたらメモリが足りなくなってしまった。その場合はbatchsizeを32にしないといけないらしい。そこで、まずはsizeを256のままbatch_sizeを32に落としてみる。
- CV=0.86224。当たり前だけど悪化した。
- 画像のsizeを512にしようとしたらメモリが足りなくなってしまった。その場合はbatchsizeを32にしないといけないらしい。そこで、まずはsizeを256のままbatch_sizeを32に落としてみる。
- ver 14
- sizeを512に変更。
- CV=0.88692。こんなに上がるかよおい。
- ver 10
-
cassavaコンペはこれまで何回かにわたり実施されていたらしい。そこで用いられたデータは使って良いそうだ。このDiscussionに前回のcassavaコンペのリンクと1位から3位までのsolutionが載ってる。
-
Snapmixという手法が有用らしい。DiscussionのリンクとGitHubのリンク
-
nb 005
- ver 16(15は失敗)
- bi_tempered_loss(今後はbi_lossと呼ぶ)を実装するにあたり実験の数が増えるので、一旦ver11に戻した。
- bi_lossを実装するにあたり、labelをone-hotにした。validの時だけ戻してる。
- num_iterの説明は論文のAppendixAにメモしておいた。pytorch実装ではt2を1とするとdimensionがおかしくなるみたい。
- t1=1, t2=1.0001, label_smoothing=0で実験(ver11とほぼ同じ結果になるか試したい)。
- CV=0.86467(fold1)で、lossはほぼver11と変わらないので、しっかり再現できてる。
- bi_tempered_loss(今後はbi_lossと呼ぶ)を実装するにあたり実験の数が増えるので、一旦ver11に戻した。
- ver 17
- t1=0.9に変更。
- CV=0.86841(fold1)。スコアが上がっている。
- ただし、train_lossの減りがさらに早くなっている。計算方法が違うとは思えないため、学習が早くなっていると言えそう。
- t1=0.9に変更。
- ver 18
- t1を0.5, 0.6, 0.7, 0.8にして実験。
- t1=0.5: CV=0.86710, 0.6: CV=0.86411. 0.7: 0.87196, 0.8:0.86224
- CVだけ見るとt1=0.7が一番いいが、lossの計算方法が違うせいで過学習してるかどうかの判定かできない。
- t1を0.5, 0.6, 0.7, 0.8にして実験。
- ver 19
- よく考えたら、t2も同時に変えないといけないことがわかったので、セルフgrid searchをして見ることにした。lossも、表示は以前のものに直した。(backwardはbi_loss)
- 実験結果は以下の通り。
-
t1 t2 CV train_loss valid_loss 0.7 1.2 0.86766 0.3439 0.4727 0.7 1.5 0.86561 0.5245 0.7046 0.8 1.2 0.86953 0.3374 0.4707 0.8 1.5 0.86299 0.5297 0.7387 0.9 1.2 0.86561 0.3284 0.4813 0.9 1.5 0.87028 0.5139 0.7602 - t2がlossに強く影響してるようだ。t1=0.9, t2=1.5の時がいいようなので、今後は暫定的にこの値を使用する。
- よく考えたら、t2も同時に変えないといけないことがわかったので、セルフgrid searchをして見ることにした。lossも、表示は以前のものに直した。(backwardはbi_loss)
- ver 16(15は失敗)
-
カエルさんのディスカッションで、gambler's lossというものが紹介されていた。Noisyなデータの中でもしっかり学習できるらしい。paperはこれ。pytorch実装は一応ここで議題には上がっているが、誰も反応はしてないみたい。
- nb 005
- ver 20
- label smoothingを導入する実験。実験結果は以下の通り。(t1=0.9, t2=1.5)
-
smooth CV train_loss valid_loss 1e-5 0.86467 0.5129 0.7503 1e-4 0.86355 0.5168 0.7533 1e-3 0.86897 0.5176 0.7526 1e-2 0.86822 0.5066 0.7063 1e-1 0.86953 0.3667 0.5263 - 1e-1の結果が一番いいが、lossが異常に低いのが気になる。1e-3以下に比べれば1e-2もかなり低いので、正常値と見ていいか??正直、CVの0.0006の違いなんて誤差だろう。
- LBスコアも見た方がいいと思うので、上位三つに関しては再実験する。
- 実験の再現性がないことに気づいた。恐らく、train_loopの中でseedを固定し忘れたこと、またはtorch.backends.cudnn.benchmark = Falseを忘れていたことが原因だろう。
- label smoothingを導入する実験。実験結果は以下の通り。(t1=0.9, t2=1.5)
- ver 22 ~ 25
- 再現性を確保してから、sub込みでsmoothingをもう一度実験。結果は次の通り。
smooth CV LB train_loss valid_loss 0 0.86972 0.859 0.5706 0.7400 1e-3 0.86692 0.860 0.5666 0.7686 1e-2 0.87028 0.868 0.4946 0.6984 1e-1 0.86972 0.864 0.3887 0.5093 - 結果から、1e-2が一番良さそうなので、とりあえずこれでいく。
- 再現性を確保してから、sub込みでsmoothingをもう一度実験。結果は次の通り。
- ver 20
- SAMというoptimizerが強いらしい。解説記事、原論文、pytorch実装。
- ver 26
- 最新のoptimizer,SAMを入れてみる。base_optimizerはAdam。
-
CV LB train_loss valid_loss 0.87234 0.867 0.4754 0.6090 - LBはほぼ変わらないけどCVはよくなっているので、SGDも試してみてから採用を考える。
- 最新のoptimizer,SAMを入れてみる。base_optimizerはAdam。
- ver 28(27は失敗)
- SAMのbase_optimizerをSGDにした。
- CV=0.69813。明らかにダメなので却下する。Adamの場合も、LBが変わらないのに学習時間が30%ほど増えているため、Adamのままにしておく。
- SAMのbase_optimizerをSGDにした。
- ver 26
-
nb 008(EfficientNet_B4)
- ver 1
- EfficientNetB4にモデルを変更。
- 画像サイズを512にしたところ、batchsizeが8じゃないとメモリに乗り切らないため、accumulation_stepを4にして、実質batch_sizeを32のままに保つことにした。
- num_foldを5にしたが、時間がかかりすぎるため、fold0のみを訓練する。
-
CV LB train_loss valid_loss 0.88411 0.886 0.6157 0.6243 - 期待よりスコアが低い。なぜ。
- EfficientNetB4にモデルを変更。
- ver 1
-
nb 005
- ver 29
- nb 008との比較のため、ver23あたりの、SAMをいれる前の状態でnum_foldを5にした。
-
CV LB train_loss valid_loss 0.86565 0.866 0.5139 0.7346 - LBはほぼ変わらないので、CVの悪化は誤差とみなす。
- Logをよく見ると、valid_lossはepoch7が一番低かった。valid_lossでEarlystoppingをかけたら、LBスコアが改善する可能性があると考えられる。
- nb 008との比較のため、ver23あたりの、SAMをいれる前の状態でnum_foldを5にした。
- ver 30
- 画像サイズを512にして、batchsizeを32に下げ、さらにSAMを入れた。
-
CV LB train_loss valid_loss 0.88949 0.882 0.4715 0.5076 - LBが振るわなくてショック...
- 画像サイズを512にして、batchsizeを32に下げ、さらにSAMを入れた。
- ver 29
-
AdamよりSAMの方がlossの下がり方が圧倒的に安定していた。なんとかしてgradient_accumulationとSAMを組み合わせたい。
-
nb 005
- ver 31
- ver26から、num_foldを5にして再実験。
-
CV LB train_loss valid_loss 0.87103 0.874 0.4764 0.6150 - LBが一気によくなって少し疑問が残るが、変化はnum_foldだけだから偶然とみなしておく。
- さらに、TTAを入れる実験を行った。
-
tta LB なし 0.874 cropのみ 0.881 crop&flip 0.883 - すごい上がり方だけど本当かこれ。TTAはcropもflipも入れた方がいいみたい。(時系列的には、nb008 ver2の実験よりも後に行っている。)
- ver26から、num_foldを5にして再実験。
- ver 32
- ver31からaugmentationを少し削った。
-
CV LB train_loss valid_loss 0.86893 0.871 0.4861 0.6049 - やはり、augmentationは増やしたままがいいらしい。
- ver31からaugmentationを少し削った。
- ver 31
-
nb 008
- ver 2
- batch_sizeを8にした上で、accumulation_stepを1に戻してSAMを入れた。
-
CV LB train_loss valid_loss 0.89159 0.886 0.5131 0.4894 - CVはよくなってるがLBは変わらない。Noiseに引っ張られている可能性が高い。改善策としてはEarly stoppingや、画像の解像度を原論文通りに少し下げることが考えられる。
- TTAは本質的な改善には繋がらない気がするが、手っ取り早いのですぐ実装する。
-
tta LB なし 0.886 cropのみ 0.885 crop&flip 0.887 - 今回はclop&flipが一番いい結果を残しているが、このdiscussionでは、flipは効かないという意見が出ている。trainのaugmentationの複雑さと関係している可能性もあるため、trainのaugmentationを緩くすれば、結果が逆転する可能性もある。
- batch_sizeを8にした上で、accumulation_stepを1に戻してSAMを入れた。
- ver 2
-
このdiscussionでは、resizeよりcenter clopの方がいい結果が出てるというコメントがある。今のところRandomResizedcropを使っているため、試す価値はありそう。
-
nb005
- ver 33
- epochごとに全てモデルを保存しておいて後からアンサンブルしようとしたが、間違えてepoch10のみを保存してしまった。
- epochごとに全てモデルを保存しておいて後からアンサンブルしようとしたが、間違えてepoch10のみを保存してしまった。
- ver 34
- epoch6, 7, 8, 9でAveragingしてみた。アンサンブルなしとの比較は次の通り。
-
Averaging LB なし(ver31) 0.883 あり(ver34) 0.888 - かなりスコアが上がってる。Early stopiingの効果とアンサンブルの効果がどっちも反映されてるっぽい。
- epoch6, 7, 8, 9でAveragingしてみた。アンサンブルなしとの比較は次の通り。
- ver 33
-
discussionで議論されているlossがほぼ全てこのNotebookで実装されてる。すごい。
-
このDiscussionでSymetric Cross Entropy LossというのがBi-tempered-lossよりいいスコアを出しているという報告がされている。
-
EfficientNetは、画像の解像度も含めて最適化されているから、画像サイズをそれに合わせた方がいいかもしれない。
-
このディスカッションでCutMixについての言及がある。有効っぽい。pytorchの実装はここにある。
-
nb005
- ver34(続き)
- ttaの回数を変えてみた。比較の結果は次の通り。
-
tta LB 3回 0.888 5回 0.889 8回 0.887 - 多ければいいというわけではないらしい。今後は5回で固定する。
- ttaの回数を変えてみた。比較の結果は次の通り。
- ver35
- 様々なLossが実装されているNotebookからloss functionをコピペした。BiTemperedLossにして、これまでと同じ結果が正しく再現できるかをチェックする。
- 完全に再現できていた!
- 様々なLossが実装されているNotebookからloss functionをコピペした。BiTemperedLossにして、これまでと同じ結果が正しく再現できるかをチェックする。
- ver37(ver36失敗)
- LossをSymmetricCrossEntropyLossにして実験
- ver34(続き)
-
nb010(create_model_EfficientNet_B0ns)
- ver1
- nb005_ver34から、モデルをEfficientNetB0(Noisy Student)に変更。
-
CV LB train_loss valid_loss 0.86799 0.886 0.4871 0.6274 - 予想に反して、Noisy Studentの方がスコアが低い。誤差の範囲とも言えるが...
- nb005_ver34から、モデルをEfficientNetB0(Noisy Student)に変更。
- ver1
-
nb012(inference_model_EfficientNet_B0&B0ns)
- ver1
- nb005_ver34とnb010_ver1のアンサンブル。結果は次の通り。<br<
-
model LB B0 only 0.889 B0ns only 0.886 B0 & B0ns 0.890 - 改善はしたが、思ったより伸び幅が小さい。epochごとのモデルを混ぜたり、TTAをしたりしているうちに多様性による伸び幅を使い尽くしてしまったのか...?
- ver1
-
AutoAugmentationがこのディスカッションで議論されている。EfficientNetのSOTAのスコアにも貢献してるらしい。試す価値がありそう。
-
nb005
- ver37~39
- Loss Functionを変えて実験。結果は次の通り。
-
Loss fn (ver) CV LB BiTemperedLogisticLoss (ver35) 0.87103 0.889 SymmetricCrossEntropyLoss (ver37) 0.86729 0.886 FocalLoss (ver38) 0.86706 0.883 FocalCosineLoss (ver39) 0.87313 0.887 - Bi-Tempered-Lossが一番いいことがわかったので、今後もそれを用いる。
- Loss Functionを変えて実験。結果は次の通り。
- ver37~39
- nb005
- ver40~
- 画像サイズを変える実験を行った。結果は以下の通り。
-
画像サイズ(ver) CV LB train_loss valid_loss time(s) 224(ver40) 0.86168 0.881 0.4712 0.6547 2244.0 240(ver41) 0.86776 0.888 0.5158 0.6307 2372.8 256(ver35) 0.87103 0.889 0.4764 0.6150 2669.4 300(ver44) 0.87266 0.886 0.4838 0.5771 2848.3 380(ver45) 0.88154 0.892 0.4913 0.5183 4406.8 456(ver46) 0.88832 0.892 0.4570 0.5153 5580.8 512(ver47) 0.88949 0.893 0.4715 0.5076 6375.2 - 結果を見るに、380が一番コスパがいいように見える。EfficientnetB0の元々のサイズは224だが、今後は380で固定する。
- 途中で気づいたが、推論の時には画像サイズを少し大きく取るとスコアが上がるらしい。その実験もしようと思う。
- 画像サイズを変える実験を行った。結果は以下の通り。
- ver40~
- nb008
- ver3
- nb005とLossなどを揃えた。(quick save)
- nb005とLossなどを揃えた。(quick save)
- ver3
- nb010
- ver3
- nb005とLossなどを揃えた。(quick save)
- nb005とLossなどを揃えた。(quick save)
- ver3
- PytorchでもTPUが使えるらしい。TPUも週30時間使えるので、実装できれば計算資料の制限がかなり緩和されそう。腎コンペのこのNotebookにわかりやすくまとめられている。
- PANDAコンペでは、trainデータのみがNoisyだったらしい。1thの解法は、学習時にdenoiseしてしまってから再学習するというものだった。今回はtestデータもNoisyであるため機能するかは不透明だが、試す価値はあるのかもしれない。
- メラノーマコンペでは、CVが安定しなかったらしいが、外部データも含めたCVと含めないCVの両方をモニターすることでCVが安定したらしい。cassavaにおいても、外部データ(過去コンペのデータ)を用いるときは今回のtrainデータだけのCVスコアも出した方が良さそう。
- GPUの節約とモデルの多様性を両立させるために、例えば、B0:fold0, B1:fold1, ... ,B4:fold4, B0ns:fold4, B1ns:fold3, ..., B4ns:fold0みたいなことをしたい。複数のepochを用いてttaも行えばsingle foldでもモデルの潜在能力をかなり引き出せるため、モデルごとにfoldを跨げばそれぞれはsingle foldの学習のみで済むためGPUの節約にもなり、学習データを全て使えて、subの時間も抑えられて色々都合がいいように思える。
- nb005
- ver45
- ver34でttaは5回が最適という結論が出たが、これはepochを複数にわたり用いる前の話なので、もう一度ttaをに下げる実験を行う。
-
tta LB 3回 0.890 5回 0.892 - 5回がベターであることは、epochを複数用いても変わらなかった。今後も5回のままにする。
- 前日に気づいた、「推論時のみ画像サイズを少し上げるとスコアが改善する可能性がある」という案を実験する。ttaは5回、trainの画像サイズは380で固定する。
-
画像サイズ(inference) LB 380(そのまま) 0.892 400 0.888 456 0.888 - スコアが悪化した。改善する可能性としては、(1)元の画像サイズが小さい(224->256など), (2)変化が小さい(380->385)などが挙げられるが、これ以上追求しても無駄な気がするので、画像サイズを揃えるオーソドックスな方法を取る。
- ver34でttaは5回が最適という結論が出たが、これはepochを複数にわたり用いる前の話なので、もう一度ttaをに下げる実験を行う。
- ver48
- 2019年のデータも入れて実験。(パラメータはver45のまま。)
-
data CV LB train_loss valid_loss 2020 only 0.88154 0.892 0.4913 0.5183 2020&2019 0.87946 0.893 0.4843 0.5694 - データの中身が変わってるので、CVは単純には比較はできない。次は揃えたい。
- 2019年のデータも入れて実験。(パラメータはver45のまま。)
- ver45
- nb010
- ver3~4
- B0とB0nsをアンサンブルするために作った(nb005_ver48と同じ)。ver3はfold0のみで、ver4はfold1のみで学習を行った。
- 仮説では、B0_fold0&B0ns_fold0よりB0_fold0&B0_fold1の方がスコアが高くなる。(使ってるデータが若干ずれるためモデル同士の相関が低くなるから。)
- それぞれのスコアは次の通り。
-
fold CV LB train_loss valid_loss LB(with B0_fold0) 0(ver3) 0.88908 0.889 0.5177 0.5551 0.890 1(ver4) 0.88459 0.889 0.5050 0.5442 0.892 - 仮説通り後者の方がスコアが高いが、B0のスコア(0.893)を下回っている。原因としては、そもそものB0nsのスコアが低いことが挙げられる。しかしそもそもなぜB0nsの方がスコアが低いかがいまいちわからないのが怖い。他のサイズだとnsの方が高い場合もあるので、discussionの通りlabelのnoiseに引っ張られている可能性が高い。
- B0とB0nsをアンサンブルするために作った(nb005_ver48と同じ)。ver3はfold0のみで、ver4はfold1のみで学習を行った。
- ver3~4
- nb013(create_model_EfficietNet_B1ns)
- ver3
- EfficientNetB1nsを画像サイズ410にして学習させる(ver1は380だが、使わない。ver2はただのミス)。
- スコアは次の通り。
-
CV LB train_loss valid_loss time(s) 0.89066 0.896 0.4565 0.5380 7682.9
- ver3
-
nb015(create_model_EfficientNet_B1)
- ver1
- 条件等はnb013_ver3と全く同じ。modelがNoisy studentではなくなっただけ。
-
CV LB train_loss valid_loss time(s) 0.88819 0.893 0.4469 0.5338 8063.4
- 条件等はnb013_ver3と全く同じ。modelがNoisy studentではなくなっただけ。
- ver1
-
nb017(create_model_EfficientNet_B2)
- ver1
- nb015_ver1のfork。画像サイズを440にした。メモリに乗り切らなかったため、batch_sizeを16に下げて、学習率も半分ずつにした。
-
CV LB train_loss valid_loss time(s) 0.88269 0.893 0.4883 0.5276 10213.2
- nb015_ver1のfork。画像サイズを440にした。メモリに乗り切らなかったため、batch_sizeを16に下げて、学習率も半分ずつにした。
- ver1
-
nb019(create_model_EfficientNet_B2ns)
- ver1
- nb017_ver1のfork。モデルがNoisy studentになっている。
-
CV LB train_loss valid_loss time(s) 0.88459 0.895 0.5168 0.5032 9888.3
- nb017_ver1のfork。モデルがNoisy studentになっている。
- ver1
-
nb021(create_model_EfficientNet_B3)
- ver1
- nb019_ver1のfork。画像サイズが470になっている。
-
CV LB train_loss valid_loss time(s) 0.88819 0.892 0.4585 0.5088 13689.6
- nb019_ver1のfork。画像サイズが470になっている。
- ver1
-
nb023(create_model_EfficientNet_B3ns)
- ver1
- nb021_ver1のfork。モデル以外は変更なし。
-
CV LB train_loss valid_loss time(s) 0.89427 0.899 0.4740 0.4891 13755.4
- ver1
-
nb008(create_moodel_EfficientNet_B4)
- ver4
- nb023_ver1のfork。画像サイズを500に変えた。メモリに乗り切らなかったため、batch_sizeを8に変えて、学習率を半分に落とした。
-
CV LB train_loss valid_loss time(s) 0.88952 0.893 0.5055 0.4547 22356.8 - valid_lossはepoch10が一番よかった。他のモデルにもepoch10が一番いい場合が見られるので、混ぜるepochは[6, 7, 8, 9]ではなく[7, 8, 9, 10]でもいいかもしれない。
- nb023_ver1のfork。画像サイズを500に変えた。メモリに乗り切らなかったため、batch_sizeを8に変えて、学習率を半分に落とした。
- ver4
-
nb025(create_model_EfficientNet_B4ns)
- ver1
- nb008_ver4のfork。モデル以外は変更なし。
-
CV LB train_loss valid_loss time(s) 0.88933 0.897 0.5233 0.5013 22328.9 - nb008_ver4と同じように、epoch10の時が一番valid_lossは小さかった。
- trainではbatch_sizeは8でないとダメだったが、inferenceでは16でも大丈夫だった。もしかしたら32でも大丈夫かもしれない。
- epochを[7, 8, 9, 10]にしてもLBスコアは同じだった。batch_sizeは32でも大丈夫だった。(ver1_2)
- batch_sizeを64にしても大丈夫だった。それどころかいきなりLBスコアが0.900までのびた。これは、epochの変更が原因ではない。もしそうならver1_2の時点で伸びているはず。(ver1_3)
- batch_sizeを128にしても大丈夫だった。スコアは0.898だった。推論時間は2時間弱ぐらい。この変動は何なのか。原因の1番の候補は乱数の影響でTTAの画像が変わったことか。(ver1_4)
- batch_sizeを256にするとエラーになった。ここまでの実験をまとめる。
-
batch_size epochs LB 16 [6, 7, 8, 9] 0.897 32 [7, 8, 9, 10] 0.897 64 [7, 8, 9, 10] 0.900 128 [6, 7, 8, 9] 0.898 128 [7, 8, 9, 10] 0.898 256 [7, 8, 9, 10] error - これを見る限り、epochsを変えても結果は変わらない。batch_sizeの変更によるスコアの上下は本質的な改善ではないため、気にしないほうがいいはず。
- nb008_ver4のfork。モデル以外は変更なし。
- ver1
- nb027(inference_EfficientNet_Averaging)
- ver1
- nb013_ver3(Effinet_B1ns), nb019_ver1(Effinet_B2ns), nb023_ver1(Effinet_B3ns), nb025_ver1(Effinet_B4ns)のAveraging。9時間をオーバーしそうなので一旦B0はのぞいてある。
- 間違えて、画像サイズを380にしてしまった。batch_sizeも32で固定されてしまっている。
- もしB4nsがbatch_size32でも通るのであれば、推論時間の短縮になるのでそうしたい。
- nb013_ver3(Effinet_B1ns), nb019_ver1(Effinet_B2ns), nb023_ver1(Effinet_B3ns), nb025_ver1(Effinet_B4ns)のAveraging。9時間をオーバーしそうなので一旦B0はのぞいてある。
- ver1
-
この三日間でひたすらbatch_sizeを変えて実験をしていたので、それをまとめる。
-
batch_size B0 B1ns B2ns B3ns B4ns 16 - - - 0.899 0.897 32 0.893 0.896 0.895 0.900 0.897 64 0.891 0.897 0.895 0.898 0.900 128 0.891 0.893 0.898 0.899 0.898 256 - - 0.894 Error Error -
B4は128まで上げられたので、小さいモデルに関してはもっと大きくすることもできそう。
-
何度も書いている通り、これらのスコアの変動は、TTAの変動によるもので、public dataのラベルのノイズに引っ張られてる可能性が非常に高いため気にするのはよくない。とりあえず推論時間の都合上64にするが今後圧迫されるようなら128や256に上げてもいいはず。
-
nb027(Averaging)
- ver2
- 得られて実験データを元に、batch_sizeを64に固定して、画像サイズをモデルごとに変更するように修正した。
- LBが0.872だった。これはあり得ないだろ...
- 途中のpredictionsの変数名を書き間違えていたことに気がついた。これのせいか。
- 得られて実験データを元に、batch_sizeを64に固定して、画像サイズをモデルごとに変更するように修正した。
- ver3
- LBは0.898だった。単体のモデルの精度を超えられない。DiscussionではTTAは2~3回がいいという意見が多数派だった。もしかするとアンサンブルをする段階においてはそうなのかもしれない。しかし、試してみる優先順位としては低い。
- モデルごとにdataloaderを用意して推論をしていたが、よく考えたらstatesに複数のモデルの分まで全て一つに押し込めばコードも短くなるし時間も大幅に短縮できる。これならアンサンブルの幅が大きく広がる。
- LBは0.898だった。単体のモデルの精度を超えられない。DiscussionではTTAは2~3回がいいという意見が多数派だった。もしかするとアンサンブルをする段階においてはそうなのかもしれない。しかし、試してみる優先順位としては低い。
- ver2
- nb019
- ver1(再掲)
- 推論の段階で、epochごとにttaを5回やっていたのを、statesに全てのモデルを入れてからttaを回すように変更した。これでloaderを回す回数がttaごとに一回で済む。
- 失敗したのでver2でやってみる。
- 推論の段階で、epochごとにttaを5回やっていたのを、statesに全てのモデルを入れてからttaを回すように変更した。これでloaderを回す回数がttaごとに一回で済む。
- ver2
- fold0とfold1の両方のモデルを作った。
- これまで通りにサブするとLBが0.896, 時間節約の方法でサブすると0.894だった。若干LBスコアは下降しているが、この方法ならモデルをどれだけ作ろうとsubにかかる時間は大して増えないため、アンサンブルをする際にはこれを検討したい。(ただし、そもそもfold0だけの時よりもスコアが悪化していることに注意)
- fold0とfold1の両方のモデルを作った。
- ver1(再掲)
- テストから解放されたのでkaggleを再開する。LBがほとんど動いてないので、ラベルがNoisyなことに対する
解決策はまだ出てないみたい。
- 今日はこれまでの日記の振り返りと、学習を回すところまで。サブなどの記録はまた明日。
- nb013(EffinetB1ns)
- ver4
- アンサンブルの実験をするためにfold0に加えてfold1も学習させる。
- アンサンブルの実験をするためにfold0に加えてfold1も学習させる。
- ver4
- nb019(B2ns)
- ver4(ver3は失敗)
- fold0とfold2を学習させる。
- ver4_1はfold2のみの短縮サブ、ver4_2はfold2のみの通常サブ、ver4_3はfold0と2の通常サブ。
-
fold CV LB 0 0.88459 0.899 2(短縮) 0.88627 0.892 2(通常) - 0.896 0&2(通常) - 0.895 - アンサンブルするとスコアが悪化してしまった。
- fold0とfold2を学習させる。
- ver4(ver3は失敗)
- nb023(B3ns)
- ver2(B3ns)
- fold0とfold3を学習させた。
-
fold CV LB 0 0.89427 0.899 3 0.89045 0.896 0 & 3 - 0.898 - やはり、単体のLBは超えなかった。
- fold0とfold3を学習させた。
- ver2(B3ns)
- nb025(B4ns)
- ver2
- fold0とfold4を学習させたが、タイムオーバーでエラーになってしまった。
- fold0とfold4を学習させたが、タイムオーバーでエラーになってしまった。
- ver3
- fold4のみを学習させる
-
CV LB 0.89235 0.898
- fold4のみを学習させる
- ver2
- nb028(create_model_seresnext50_32x4d)
- ver1
- モデルをseresnextに変更した。画像サイズは380、batch_sizeは32で、foldは0のみ。
-
CV LB 0.89351 0.895 - 画像サイズをあげればスコアはまだ伸びそう。
- モデルをseresnextに変更した。画像サイズは380、batch_sizeは32で、foldは0のみ。
- ver1
- 1月30日の分は1月29日のところにまとめて書いた。
- [このディスカッション]によると、healthyのラベルがつけられたデータのうちのほとんどは、病気になっている葉が混ざっているらしい。専門家は多少の葉が病気になっていても概ね健康であればhealthyのラベルをつけるのに対して、モデルは敏感に感知してしまい、病気のラベルに誤分類している可能性がありそう。
- [arutema47さんのディスカッション]によると、クラス0と4が状況が悪く、さらに0の多くが4(healthy)に誤分類されているらしい。healthyのデータの多くに病気の葉が混ざっているせいで、病気の葉が少ないデータに対する精度が落ちてる感じがする。
- nb027
- ver4~6
- B2nsとB3nsとB4nsの3つのモデルを色々混ぜてみたが、なぜかTime overになってしまい、全てエラーになった。
- そもそもEfficientNetを大量に混ぜること自体にあまり意味が見いだせない気がする。混ぜるなら違うモデル同士を混ぜた方がいい。
- B2nsとB3nsとB4nsの3つのモデルを色々混ぜてみたが、なぜかTime overになってしまい、全てエラーになった。
- ver4~6
- nb005
- ver49~51
- cutmix, fmix, mixupを実装した。cutmixの原論文を読んでcutmixとmixupについては大体理解できたが、fmixについてはよくわかってないので、原論文を読む必要がある。ディスカッションでは、この3つのうちどれを使うのがいいかについては意見が割れており、どれも大差ないようだった。
- これらの手法で各クラスの中間のようなもので訓練できれば、healthyクラスの一部の病気の葉に引きずられて誤分類してしまう問題が回避できる可能性がある。
- ver49_1はcutmixでbatchsizeが64, どれ以降は全てbatch_sizeは32で、ver49_2はcutmix、 ver50はfmix、ver51はmixup。ただし、mixupについては自分で実装したため、誤っている可能性がなくはない。多分あってるとは思うけど...
- 結果は次の通り。
-
手法 CV LB train_loss valid_loss mixup 0.87130 0.887 0.9580 0.4436 cutmix 0.87870 0.890 0.7935 0.4759 fmix 0.88041 0.890 0.7570 0.4596 - valid_lossは以前よりかなり下がっているが、train_lossが下がりきってない。そもそもモデルが小さいことがその原因っぽいので、モデルを大きくする必要がありそう。
- cutmix, fmix, mixupを実装した。cutmixの原論文を読んでcutmixとmixupについては大体理解できたが、fmixについてはよくわかってないので、原論文を読む必要がある。ディスカッションでは、この3つのうちどれを使うのがいいかについては意見が割れており、どれも大差ないようだった。
- ver49~51
- nb023(B3ns)
- ver4~6
- mixupとsnapmixを試した。
-
augmentation CV LB train_loss valid_loss mixup 0.88591 0.893 0.9320 0.4346 snapmix(p=0.5) 0.88497 0.890 1.1941 0.4103 snapmix(p=1.0) 0.88136 0.884 1.6599 0.4418 - discussionではsnapmixは効くと言われていたのに効かなかった。snapmixの割合を落とせばいいのかもしれない。
- mixupとsnapmixを試した。
- ver4~6
- 今日は一日テスト勉強に費やした。
- nb028
- ver3
- 画像サイズを410にした。
-
CV LB train_loss valid_loss 0.89237 0.897 0.4325 0.5610 - スコアが上がった。これを見る限り、augmentation(snapmixとか)を強くしすぎてもスコアが下がるのは妥当だと思われる。
- 画像サイズを410にした。
- ver3
- transformerについてのQiita記事や英語の記事を見てtransformerについての理解を深めた。また、ViTについてのQiita記事も読んだ。明日からVision Transformerを実装したい。
- nb030(create_model_ViT)
- このNotebookを参考にTPUでVision Transformerを実装した。
- なぜかGPUより遅いし、2epoch目以降は全く学習をしてくれない。
- 以下、動かしててわかったことを書く。
- DistritutedSamplerを使ってDatasetからsamplerを作ってDataLoaderに渡さないと並列化ができないらしい(少なくともnprocsを8にするときは必須)。
- 最後にxmp.spawnで複数のプロセスを起動する必要がある。これはもともとNotebookの最後には書いてあったが、見逃していた。
- optimizerを更新するときは、xm.optimizer_step(optimizer)を使って、複数のプロセスの勾配を平均する必要がある。それにより、SAMが使えなくなる(使えるかもしれないけど現時点の自分の実力では無理)。
- optimizerやmodelは複数のプロセスで共通のものを使うため、train_loopの外に書く必要がある。よって、optimizerの学習率を途中で下げるために、loopの途中でoptimizerを定義し直すと学習が進まなくなる。
- os.environ["XLA_USE_BF16"] = "1" を打たないと、TPUの混合精度にならなくて遅い。参考記事
- TPUが2epoch以降に早くなるのは仕様。参考記事
- DistritutedSamplerを使ってDatasetからsamplerを作ってDataLoaderに渡さないと並列化ができないらしい(少なくともnprocsを8にするときは必須)。
- ver1~3はいずれも失敗に終わった。
- このNotebookを参考にTPUでVision Transformerを実装した。
- GitHubの更新をdatasetに反映させるためにupdateをして、notebook内でも更新をしてsession restart, ページのリロードも行ったところ、ファイルの中のコードが変わったにも関わらず、実際に動いているのは更新前のコードというバグがあった。一度Notebookを閉じて再び開けると直ったため、今後は気をつける必要がある。(ちなみに悩まされていたのはSAMのoptimizer.step(closure)をできるようにしたかったため)
-
nb030
- ver4
- モデルの重みを一旦凍結して、後から解凍した時、うまく学習してるかが判別できなかったため、とりあえずそのオプションは外した。
- また、schedulerをGradualWarmupSchedulerV2に変更している。(途中でoptimizerの重みを変更できなかったため。)
- 全然学習が進まなかった。ただ、並列化などはうまく行っている。schedulerが原因である可能性が大きい
- その後も頑張り続けたが、全く動かなかった。
- モデルの重みを一旦凍結して、後から解凍した時、うまく学習してるかが判別できなかったため、とりあえずそのオプションは外した。
- ver5
- schedulerをCosineAnnealingWarmRestartsに戻した。
- ver4
-
nb023(B3ns)
- ver7・8
- Snapmixの割合をに下げた
- 結果は次の通り
-
snapmix CV LB train_loss valid_loss 0.2 0.88686 0.896 0.8799 0.4346 0.1 0.88819 0.894 0.7494 0.4805 - 効いてないように見える。snapmix系のaugmentationでラベルノイズを攻略するのは難しいと判断する。
- snapmixの確率をあげるとvalid_lossは小さくなるが、CV, LBは悪くなっている。これは根本的にラベルノイズの解決にはなってないことを意味する。(と思ってる。)
- Snapmixの割合をに下げた
- ver7・8
-
nb028(SeResNeXt)
- ver5(ver4は失敗)
- 画像サイズを440に上げた。
-
CV LB train_loss valid_loss 0.89446 0.895 0.4779 0.5032 - CVはよくなってるが、LBが悪くなってる。TTAの影響でたまたまLBがよくない可能性は否めない。
- 画像サイズを440に上げた。
- ver5(ver4は失敗)
- このディスカッションによると、shakeはあまり大きくなく、9割は+/-0.005程度に落ち着くらしい。コメントを見ると、そもそもprivateスコアがリークしてることがわかった時、ほとんどpublicスコアとの差がないことが判明されてることが指摘されている。今回はLBを重視していいと考えられる。MoAの反省も踏まえると、shakeをビビりすぎてはいけない。
- 今更、optimizerをAdamにしてgradient_accumulationを上げたほうがいいような気がしてきた。ほとんど誰もSAMを使ってない。ひと段落したら試してみてもいいが、一度決めたことを変えすぎるのはよくないとMoAで反省をしたので、あまり優先度は高くしないでおく。
- clean_labを使ってみた。全てを理解することはできなかったので、論文を参考にしつつ、公開されているNotebookからdenoiseされたラベルデータを取得して自分のNotebookに組み込むことにした。
- nb023
- ver10(ver9は失敗)
- clean_labで更新されたlabelで訓練した。それ以外はver1と全く同じ。
-
CV LB train_loss valid_loss 0.93926 0.893 0.2333 0.2148 - モデルの予測を元に更新したラベルを使ってるので、当たり前な結果が出てきた。ラベルを入れ替えるよりは、間違いっぽいラベルを外す方が良さそう。
- clean_labで更新されたlabelで訓練した。それ以外はver1と全く同じ。
- ver11
- 今度は、noisyラベルを外して訓練してみる。
-
CV LB train_loss valid_loss 0.95170 0.897 0.2027 0.1751 - CVは明らかに高いが、一応denoiseの形としてはこっちが正解なのかもしれない。ここにsnapmixを加えてみても良さそうではある。
- 今度は、noisyラベルを外して訓練してみる。
- ver10(ver9は失敗)
- nb031
- ver1
1- 公開Kernelを使わせていただくことにした。DEiTを使う。(schedulerのみGradualWarmupSchedulerV2から'CosineAnnealingWarmRestarts'に変えて、epochも20から10に落としている)
-
CV LB train_loss valid_loss 0.86729 - 0.5808 0.5694 - 明らかに学習しきれていないのでsubはしてない。やはりepochやschedulerはいじらない方がよかったかもしれない。
- 公開Kernelを使わせていただくことにした。DEiTを使う。(schedulerのみGradualWarmupSchedulerV2から'CosineAnnealingWarmRestarts'に変えて、epochも20から10に落としている)
- ver2
- モデルをViTに変えた。軽めに実験した感じでは、lrは1e-4が一番よかった。
- 公開Kernelを使わせていただくことにした。DEiTを使う。(schedulerのみGradualWarmupSchedulerV2から'CosineAnnealingWarmRestarts'に変えて、epochも20から10に落としている)
学習 -
CV LB train_loss valid_loss 0.86729 - 0.6204 0.5708 - ViTにしてもほぼ同じ結果が出た。本格的にわからない...
- [Discussion]を見ると、DeiTの画像サイズが384のweightがあるらしいので変更する。
- モデルをViTに変えた。軽めに実験した感じでは、lrは1e-4が一番よかった。
- ver1
-
nb023
- ver12
- denoiseした上でsnapmixを加えてみる。
-
CV LB train_loss valid_loss 0.94716 0.894 0.7098 0.1719 - スコアが悪化した。snapmixは完全に諦めることにする。
- denoiseした上でsnapmixを加えてみる。
- ver12
-
nb027(Averaging)
- ver8
- denoiseをしたB3ns(ver11)と普通のB2nsを混ぜてみた。
- B2nsが0.898、B3nsが0.897、アンサンブルが0.898なので、あまり効果がなかった。denoiseをしたとはいえEfficientNetを混ぜるだけでは意味がないのかもしれないし、そもそも確率をaveragingするよりは多数決にしたほうがいいのかもしれない。
- denoiseをしたB3ns(ver11)と普通のB2nsを混ぜてみた。
- ver8
-
nb028
- ver6
- 画像サイズを410に戻し、Rand_Augmentを実装した。
-
CV LB train_loss valid_loss 0.88743 0.895 0.5569 0.5467 - スコアが悪化した。今回はAugmentationは厳しくしても、noisyラベルに対してはあまり効果がなさそう。もしかすると、DeiTでもRand_Augmentを抜いた方がいいのかもしれない。
- 画像サイズを410に戻し、Rand_Augmentを実装した。
- ver6
-
nb031
- ver5
- モデルをdeit_base_patch16_384に変更した(distilledはなぜか動かなかった)。
- inferenceの時もinternetが必要ということがわかったので、githubからモデルをコピペしたけど、これはグレーゾーンだと思う。
-
CV LB train_loss valid_loss 0.88715 0.896 0.5281 0.5344 - アンサンブルに十分使えそうなモデルができた。loss_functionを変えたりして微調整をしたい。
- モデルをdeit_base_patch16_384に変更した(distilledはなぜか動かなかった)。
- ver6
- Bi_Tempered_Lossにした。これまで通り,t1=0.8, t2=1.5, smooth=1e-2にしている。(smooth=5e-2がデフォルトだったが、少し様子を見る限りでは1e-2の方が良さそう。)
-
CV LB train_loss valid_loss 0.88505 0.894 0.2730 0.2658 - TaylarCrossEntropyLossの方がCV, LB共によかった。逆に、EfficientNetやSeResNeXtでもそれが当てはまる可能性がある。
- Bi_Tempered_Lossにした。これまで通り,t1=0.8, t2=1.5, smooth=1e-2にしている。(smooth=5e-2がデフォルトだったが、少し様子を見る限りでは1e-2の方が良さそう。)
- ver5
-
RandAugmentに関するわかりやすい記事を見つけた。
- nb023
- ver14
- denoiseした上でRand_Augmentを使ってみた。
-
CV LB train_loss valid_loss 0.93829 0.889 0.3928 0.2525 - 全然ダメだった。
- denoiseした上でRand_Augmentを使ってみた。
- ver14
- nb028
- nb031
- ver7
- Rand_Augmentを外してみた。
-
CV LB train_loss valid_loss 0.86449 - 0.4789 0.5421 - 結果があまり良くなかった。Rand_Augmentもモデル次第で効いたり効かなかったりする。ますますわからん。
- Rand_Augmentを外してみた。
- ver8・ver9
- Rand_Augmentを入れ直して、TaylorCrossEntropyLossのnを4にした。
-
n CV LB train_loss valid_loss 2 0.88715 0.896 0.5281 0.5344 4 0.88668 0.892 0.5276 0.5346 6 0.88318 0.893 0.5522 0.5445 - n=2はver5の再掲。n=2のスコアは越えられなかった。DeiTはデフォルトのスコアが限界かもしれない。
- Rand_Augmentを入れ直して、TaylorCrossEntropyLossのnを4にした。
- ver7
- GCPのインスタンスを立てることに成功した。以下、その手順をまとめておく。
-
nb028
- ver9・ver10
- TCEのnを4と6にして実験した。
-
n CV LB train_loss valid_loss 4 0.89408 - 0.2960 0.3318 6 0.89503 - 0.3085 0.3389 - インスタンスを消してしまったので、サブをすることができなかった。
- TCEのnを4と6にして実験した。
- ver9・ver10
-
GCEの中のデータをどうやって転送していいかがわからず、結局インスタンスを消した。GCEに自動でjupyter labを立てさせたはいいものの、肝心のファイルがどこにあるか全く見えなかった。sshで入っても何も見えず、docker containerの中にも何もない。notebook内で見えているpathはなんの環境の中のpathなのかが全くわからなかった。
- nb028
- ver11・ver12
- TCEのnを4と6にして実験した。
-
n CV LB train_loss valid_loss 4 0.89332 0.898 0.3377 0.3392 6 0.89256 0.895 0.3396 0.3426 - 僅差だが、TCEのn=4の時が一番LBスコアが高かった。GCPのインスタンス内で作ったモデルの方が精度が若干いいことが気になる。batch_sizeを小さくしてることが原因として考えられる。
- n=4の時のモデルで、このNotebookを参考にTTAを変えてサブした(ver11_3)ところ、LBスコアは0.892だった。fold数をあげたりアンサンブルをしたりするときなどにスコアが伸びたりするかもしれないので、モデルが出来次第試す。
- TCEのnを4と6にして実験した。
- ver11・ver12
- nb023
- ver15・ver16
- TCEのnを4と6にして実験した。
-
n CV LB train_loss valid_loss 4 0.89161 0.897 0.3926 0.3492 6 0.89180 0.897 0.4022 0.3625
- TCEのnを4と6にして実験した。
- ver15・ver16
- nb023
- ver17
- n=4で、optimizerをAdamにしてaccumulation_stepを4にして高速化を行った。訓練時間は約半分。
-
CV LB train_loss valid_loss 0.89180 0.895 0.2993 0.3412 - SAMを採用する。
- n=4で、optimizerをAdamにしてaccumulation_stepを4にして高速化を行った。訓練時間は約半分。
- ver18
- ver15から、batch_sizeを16にあげた(batch_sizeの違いによるスコアへの影響を調べるため)。
-
CV LB train_loss valid_loss 0.89427 0.897 0.3429 0.3288 - batch_sizeは特に関係なかった。
- ver15から、batch_sizeを16にあげた(batch_sizeの違いによるスコアへの影響を調べるため)。
- ver17
- nb028
- ver13
- n=4で、optimizerをAdamにしてaccumulation_stepを4にして高速化を行った。訓練時間は約半分。
-
CV LB train_loss valid_loss 0.88933 0.895 0.3245 0.3520 - SAMを採用する。
- n=4で、optimizerをAdamにしてaccumulation_stepを4にして高速化を行った。訓練時間は約半分。
- ver14
- ver11から、batch_sizeを32にあげた(batch_sizeの違いによるスコアへの影響を調べるため)。
-
CV LB train_loss valid_loss 0.89560 0.897 0.3045 0.3340 - batch_sizeは特に関係なかった。
- ver11から、batch_sizeを32にあげた(batch_sizeの違いによるスコアへの影響を調べるため)。
- ver13
- nb031
- 数日前から急に、timmをimportしようとしたらtorch._sixからcontainer_abc(的なやつ)をimportできないというエラーが吐かれ、TPUが全く動かせなくなっていた。原因は、torch._sixが数日前にupdateされて、それに合わせてtimmもupdateされていたが、timmのdatasetに変更が反映されず、torch._sixとtimmの対応がおかしくなっていたことだった。kaggleのdatasetとgithubのリポジトリのversionが合っていないためにエラーが起こるのは仕方のないことなようなので、今後は気をつける。今回は、timmのdatasetを作り直すことで解決した。
- 数日前から急に、timmをimportしようとしたらtorch._sixからcontainer_abc(的なやつ)をimportできないというエラーが吐かれ、TPUが全く動かせなくなっていた。原因は、torch._sixが数日前にupdateされて、それに合わせてtimmもupdateされていたが、timmのdatasetに変更が反映されず、torch._sixとtimmの対応がおかしくなっていたことだった。kaggleのdatasetとgithubのリポジトリのversionが合っていないためにエラーが起こるのは仕方のないことなようなので、今後は気をつける。今回は、timmのdatasetを作り直すことで解決した。
- timmでswsl_resnext101_32x8dというモデルを見つけた。パラメータの数も許容範囲内で、かなり精度もいい。SeResNeXtを超える可能性がある
- Discussionで、NFNetというモデルが紹介されていた。パラメータ数は多いが、早いらしい。SOTAらしいので試してみたい。
- nb033(several_models)
- ver1
- B3ns(ver1)とSeResNeXt(ver3)をアンサンブルした。
- LBは0.899だった。スコアの伸びが期待できそう。
- ふと気づいたが、inferenceでseedを固定していないせいで、LBスコアが再現できていない可能性がある。次回から固定して検証する。
- 確認したら、ちゃんとseedを固定していた。
- B3ns(ver1)とSeResNeXt(ver3)をアンサンブルした。
- ver1
- nb023
- 再現性が心配だったので、ver3で出した、batch_sizeが128でLBスコアが0.899のものを再現できるかどうかを確かめるために、ver1_6をサブミットした。ちゃんと再現できていた。
- ver19
- ver1から、foldを1に変更した。保存するepochを5以上にしておいた。
- ver1から、foldを1に変更した。保存するepochを5以上にしておいた。
- ver20
- foldを4に変更した。
- foldを4に変更した。
- 再現性が心配だったので、ver3で出した、batch_sizeが128でLBスコアが0.899のものを再現できるかどうかを確かめるために、ver1_6をサブミットした。ちゃんと再現できていた。
- nb028
- ver15
- ver11を全foldに拡張した。
- ver11を全foldに拡張した。
- ver15
- nb031
- ver10
- ver5を全foldに拡張した。
-
CV LB 0.86023 0.887 - fold0以外がかなりCVが低かった。fold0はちゃんと再現できていたので、fold0だけがたまたま簡単だった可能性が高い。アンサンブルには、特定のfoldだけを選ぶべきなのかもしれない。
- ver5を全foldに拡張した。
- ver10
- nb034(B3ns_2)
- ver1
- nb023_ver1のfoldを2にした。
- nb023_ver1のfoldを2にした。
- ver1
- nb035(swsl_resnext50_32x4d)
- ver1
- swsl_resnext101_32x8dは重たすぎたので、swsl_resnext50_32x4dにした。これでもseresnextよりランキングが高い上、seresnextより軽くて早い。
- 画像サイズは410で、損失関数はbitemperedlossにした。
-
CV LB train_loss valid_loss 0.89028 - 0.4992 0.5296
- swsl_resnext101_32x8dは重たすぎたので、swsl_resnext50_32x4dにした。これでもseresnextよりランキングが高い上、seresnextより軽くて早い。
- ver1
- アンサンブルで使う3つのモデルのCVをまとめる。
-
fold B3ns SeResNeXt DeiT 0 0.89427 0.89332 0.88785 1 0.89541 0.89522 0.86659 2 0.89026 0.88437 0.82099 3 0.89045 0.89520 0.86445 4 0.89520 0.89615 0.87076 - これらを見ると、fold2の学習が総じてうまくいってないことがわかる。考えられる一番の原因はfold2のoofのラベルにノイズが多く含まれていることであるため、fold2だけはdenoiseしてみたい。
- サブに用いるepochは[6, 7, 8, 9]から[7, 8, 9, 10]に変更する。(単純にスコアがいいから。)
- nb023
- ver21
- cleanlab_dataを用いてdenoiseし、fold2の学習を行った。
- cleanlab_dataを用いてdenoiseし、fold2の学習を行った。
- sub1
- ver1を全てのfoldに拡張した。(13:35~)
- LBは0.900で、subにかかった時間は大体3時間だった。
- ver21
- nb028
- ver16
- ver11から、denoiseして対象をfold2に変更した。
- ver11から、denoiseして対象をfold2に変更した。
- ver16
- nb033
- ver2
- nb023_sub1, nb028_ver15, nb031_ver5をアンサンブルした。
- 0.899だった。辛すぎる。
- nb023_sub1, nb028_ver15, nb031_ver5をアンサンブルした。
- ver2
- nb037(ViT)
- ver1
- nb031_ver5から、modelをViTに変更して全foldに渡って学習させた。
- 結果は記録するほどではなかった。使わない。
- nb031_ver5から、modelをViTに変更して全foldに渡って学習させた。
- ver1
- nb028
- ver18
- ver15から、とりあえずfoldを0のみにして画像サイズを512にあげた。
- ver15から、とりあえずfoldを0のみにして画像サイズを512にあげた。
- ver18
- nb033
- ver3
- このNotebookを参考に、inferenceを変えてみた。今までやっていたアンサンブルの方法だと、2つのモデルを混ぜてもあまり精度が上がらないのかもしれない。(TTAをやりすぎた??)このEfficientNetB3nsとResNeXtをこの方法で混ぜて0.903に届くのなら、アンサンブル次第では自分のモデルももっと上に行けるはず。
- Time outになってしまった。
- このNotebookを参考に、inferenceを変えてみた。今までやっていたアンサンブルの方法だと、2つのモデルを混ぜてもあまり精度が上がらないのかもしれない。(TTAをやりすぎた??)このEfficientNetB3nsとResNeXtをこの方法で混ぜて0.903に届くのなら、アンサンブル次第では自分のモデルももっと上に行けるはず。
- ver4
- B3nsとSeResNeXtのCVを色々探ってみた。どうやら、全foldを混ぜてもCVはあまり伸びないらしい。大きく伸びたのはfold4のペアで、次がfold1だった。
-
fold B3ns SeResNeXt アンサンブル 1 0.89541 0.89522 0.89977 4 0.89520 0.89615 0.89880 1&4 0.89530 0.89568 0.89920 全fold 0.89312 0.89285 0.89577 - これを見ると、とりあえず全部を混ぜても大した精度が得られない可能性がある。もちろん、特定のfoldだけを使うと、privateのラベルの分布からズレてshake downする可能性があるが、とりあえず上にいけないと話にならないので、やれることはやってみる。金圏にいる人はCVが0.9を超えているため、CVが上がらない限り近づける可能性は低そう。
- 2020データと2019データで、CVスコアの分布が変わっているのでそれも記録する。(表の価はアンサンブル後のもの)
-
fold 2019 2020 2019&2020 fold0 0.90622 0.89153 0.89427 fold1 0.91221 0.89709 0.89977 fold2 0.89875 0.88936 0.89121 fold3 0.90329 0.89282 0.89482 fold4 0.89848 0.89888 0.89880 全fold 0.90364 0.89396 0.89577 - 2020のデータだと、fold4が一番CVがいいが、2019のデータになるとそうでもないらしい。fold1とfold4を混ぜてみることにする。
- 正直、ここでやっていることは意味があるか微妙だが、何もできずに終わるよりはマシなので最後までできることはする。
- B3nsとSeResNeXtのCVを色々探ってみた。どうやら、全foldを混ぜてもCVはあまり伸びないらしい。大きく伸びたのはfold4のペアで、次がfold1だった。
- ver5
- ver3から、DeiTを抜いて、さらにfoldを1と4だけにした。
- LBは0.899のままだった。案の定意味がなかった。
- ver3から、DeiTを抜いて、さらにfoldを1と4だけにした。
- ver7(ver6は失敗)
- tfn_foldは全foldに戻した。過去の実験結果をみていると、画像サイズが大きい場合にTTAがほとんど効いていないようだったので、とりあえず外してみた。軽く入れるなら意味がありそうなので、それでもいいかもしれない。
- LBは0.893だった。ある程度はTTAが効いていたらしい。
- tfn_foldは全foldに戻した。過去の実験結果をみていると、画像サイズが大きい場合にTTAがほとんど効いていないようだったので、とりあえず外してみた。軽く入れるなら意味がありそうなので、それでもいいかもしれない。
- ver8
- ver5から、foldを全てに戻して、TTAをRandomResizedcropだけにした。
- LBが0.900に上がった。こっちの方が良さそう。
- ver5から、foldを全てに戻して、TTAをRandomResizedcropだけにした。
- ver9
- ver3から、B3nsのepochをbestのみにした。
- LBが0.897で所要時間が3時間ほど。これは望みがあるぞ。B3nsのepochも増やせるし、seresnextのTTAも追加できる。
- ver3から、B3nsのepochをbestのみにした。
- ver3
- nb028
- ver19
- learning_rateを3.0e-5に上げて、foldを1~4にした。
- learning_rateを3.0e-5に上げて、foldを1~4にした。
- ver19
- nb033
- ver11(ver9, ver10は失敗)
- B3nsのepochを[9, 10]に変更した。また、SeResNeXtのTTAを復活させ、trainsformerをRandomResizedCropだけにした。
- LBは0.898だった。なんで???もうまじでわからん。
- B3nsのepochを[9, 10]に変更した。また、SeResNeXtのTTAを復活させ、trainsformerをRandomResizedCropだけにした。
- ver13(ver12は失敗)
- ver11から、SeResNeXtのTTAの回数を減らした。
- ver11から、SeResNeXtのTTAの回数を減らした。
- ver14
- verから、SeResNeXtもB3nsと同じ方法で TTAを行った。
- verから、SeResNeXtもB3nsと同じ方法で TTAを行った。
- ver15
- ver14で、stackingができるようにコードをかいた。(サブはしない。)
- ver14で、stackingができるようにコードをかいた。(サブはしない。)
- ver16
- ver9からstackingを行った。
- LBは0.896。stackingは望み薄っぽい。
- ver9からstackingを行った。
- ver17
- ver8から、SeResNeXtのTTAを無くした。
- LBは0.899。
- ver8から、SeResNeXtのTTAを無くした。
- ver11(ver9, ver10は失敗)
- nb038(stacking_mlp)
- 俵さんの記事を参考にstackingをやってみることにした。mlpによるstackingのためのNotebook
- ver1
- nb023とnb028の全foldのoofを使ってモデルを作った。
- nb023とnb028の全foldのoofを使ってモデルを作った。
- ver2
- nb023のoofを、inference_with_ttaのものに置き換えた。
- nb023のoofを、inference_with_ttaのものに置き換えた。
- 俵さんの記事を参考にstackingをやってみることにした。mlpによるstackingのためのNotebook
- nb039(stacking_1dcnn)
- ver1
- 1DCNNでstacking用のモデルを作った。用いたデータはnb023とnb028のoof。
- 1DCNNでstacking用のモデルを作った。用いたデータはnb023とnb028のoof。
- ver2
- nb023のoofを、inference_with_ttaのものに置き換えた。
- nb023のoofを、inference_with_ttaのものに置き換えた。
- ver1
- nb040(stacking_2dcnn)
- ver1
- 2DCNNでstacking用のモデルを作った。用いたデータはnb023とnb028のoof。
- 2DCNNでstacking用のモデルを作った。用いたデータはnb023とnb028のoof。
- ver2
- nb023のoofを、inference_with_ttaのものに置き換えた。
- nb023のoofを、inference_with_ttaのものに置き換えた。
- ver1
- nb041(create_oof_B3ns)
- ver1
- inferenceで行うTTAと同じAugmentationを使ってoofを作らないといけないと考えたので、oofを作るためのNotebookを作った。inference_with_ttaで、epochは[9, 10]を使うことを想定した。
- inferenceで行うTTAと同じAugmentationを使ってoofを作らないといけないと考えたので、oofを作るためのNotebookを作った。inference_with_ttaで、epochは[9, 10]を使うことを想定した。
- ver2
- epochをbestのものだけにした。
- epochをbestのものだけにした。
- ver1
- nb042(create_oof_SeResNeXt)
- ver1
- nb041_ver2のモデルをSeResNeXtにした。
- nb041_ver2のモデルをSeResNeXtにした。
- ver1
- 今日は最終日。
- nb023
- sub1から、TTAをRandomResizedCropだけにしてsub1_2とした。
- sub1_2から、inference_with_ttaを加えてアンサンブルしてsub1_3とした。
- nb033
- ver18
- ver8のSeResNeXtを、画像サイズが512のものに変更した。
- Timeoutだった。このタイミングでやらかしてしまった。
- ver8のSeResNeXtを、画像サイズが512のものに変更した。
- ver20(ver19は失敗)
- ver18から、fold2を削った。今更気づいたが、訓練データを15000枚とって使えば、大体サブにかかる時間がわかる。もっと早く気付きたかった。
- 結局Timeout。もう救いようがない。
- ver18から、fold2を削った。今更気づいたが、訓練データを15000枚とって使えば、大体サブにかかる時間がわかる。もっと早く気付きたかった。
- ver21
- ver9から、SeResNeXtの画像サイズを512に上げて、TTAを復活させてfold2を削った。
- LBは0.898だった。
- ver9から、SeResNeXtの画像サイズを512に上げて、TTAを復活させてfold2を削った。
- ver18
- nb041
- ver3
- 今までずっと使っていたTTAでoofを作るコードをかいた。(commitはしてない。)
- 今までずっと使っていたTTAでoofを作るコードをかいた。(commitはしてない。)
- ver4
- TTAをRandomResizedCropのみにした。
- TTAをRandomResizedCropのみにした。
- ver3