X3D: Expanding Architectures for Efficient Video Recognition
Opened this issue · 0 comments
yiskw713 commented
INFO
author
Christoph Feichtenhofer
affiliation
Facebook AI Research (FAIR)
conference or year
CVPR2020
link
pdf
slowfast repositroyにコードが上がるらしい
概要
小さな画像分類のアーキテクチャを,空間,時間,幅,奥行きの複数のネットワーク軸に沿って拡張する効率的な動画認識モデルである X3D を提案.
各ステップで一つの軸を拡張するシンプルな stepwise network expansion approach を採用し,精度と複雑さのトレードオフを実現.
動画認識のためのニューラルネットは,2D画像アーキテクチャを時間方向に拡張したものがほとんどである.
これらの拡張は精度は向上する一方で,計算量も増大し,トレードオフの関係にある.
本研究では,小さな2Dアーキテクチャをベースに複数ある軸をそれぞれ拡張することによって,時空間方向のアーキテクチャを得る.
小さな2Dアーキテクチャは mobilenet の channel-wise separable convolution(depthwise conv + point-wise conv(1x1conv)) を元にしている.
特に以下の異なる軸間でのトレードオフについて検証している.
- 3DCNNに最適な時間サンプリング戦略は何か? 短い持続時間のクリップの密なサンプリングよりも,長い入力持続時間と疎なサンプリングの方が好ましいか?
- より細かい空間解像度が必要か?従来研究では低解像度画像がよく用いられてきた.また,動画には一般的に画像よりも粗い空間解像度であることが多いが,認識の性能が飽和する最大空間解像度はありますか?
- フレームレートは高いがチャネル数の少ないネットワークを持つ方が良いのか(Fast Path in SlowFast)、それとも低フレームレートでチャネル数の多いモデルで処理する方が良いのか(Slow Path in SlowFast)?あるいは,これらの両極端の間にもっと良い関係があるのか?
- ネットワーク幅を拡大する場合,ネットワーク幅を全体的に拡大するのと,チャネルごとに分離可能なコンボリューションを用いたモバイル画像分類ネットワークで一般的なように,内側(ボトルネック)の幅を拡大するのとどちらが良いか?
- 受容野のサイズを十分に大きくし,その成長率をほぼ一定に保つためには,入力解像度を拡大して,より深いところに行くべきなのか,それとも異なる軸に拡大した方が良いのか.これは空間次元と時間次元の両方に当てはまるか?
提案手法
検証
新規性
議論,展望
Comment
date
Apr. 13th, 2020