yiskw713/paper_summary

X3D: Expanding Architectures for Efficient Video Recognition

Opened this issue · 0 comments

INFO

author

Christoph Feichtenhofer

affiliation

Facebook AI Research (FAIR)

conference or year

CVPR2020

link

pdf
slowfast repositroyにコードが上がるらしい

概要

小さな画像分類のアーキテクチャを,空間,時間,幅,奥行きの複数のネットワーク軸に沿って拡張する効率的な動画認識モデルである X3D を提案.
各ステップで一つの軸を拡張するシンプルな stepwise network expansion approach を採用し,精度と複雑さのトレードオフを実現.

動画認識のためのニューラルネットは,2D画像アーキテクチャを時間方向に拡張したものがほとんどである.
これらの拡張は精度は向上する一方で,計算量も増大し,トレードオフの関係にある.

本研究では,小さな2Dアーキテクチャをベースに複数ある軸をそれぞれ拡張することによって,時空間方向のアーキテクチャを得る.
小さな2Dアーキテクチャは mobilenet の channel-wise separable convolution(depthwise conv + point-wise conv(1x1conv)) を元にしている.

特に以下の異なる軸間でのトレードオフについて検証している.

  • 3DCNNに最適な時間サンプリング戦略は何か? 短い持続時間のクリップの密なサンプリングよりも,長い入力持続時間と疎なサンプリングの方が好ましいか?
  • より細かい空間解像度が必要か?従来研究では低解像度画像がよく用いられてきた.また,動画には一般的に画像よりも粗い空間解像度であることが多いが,認識の性能が飽和する最大空間解像度はありますか?
  • フレームレートは高いがチャネル数の少ないネットワークを持つ方が良いのか(Fast Path in SlowFast)、それとも低フレームレートでチャネル数の多いモデルで処理する方が良いのか(Slow Path in SlowFast)?あるいは,これらの両極端の間にもっと良い関係があるのか?
  • ネットワーク幅を拡大する場合,ネットワーク幅を全体的に拡大するのと,チャネルごとに分離可能なコンボリューションを用いたモバイル画像分類ネットワークで一般的なように,内側(ボトルネック)の幅を拡大するのとどちらが良いか?
  • 受容野のサイズを十分に大きくし,その成長率をほぼ一定に保つためには,入力解像度を拡大して,より深いところに行くべきなのか,それとも異なる軸に拡大した方が良いのか.これは空間次元と時間次元の両方に当てはまるか?

提案手法

検証

新規性

議論,展望

Comment

date

Apr. 13th, 2020