Skeleton-Based Action Recognition With Convolutional Neural Networks
Opened this issue · 0 comments
論文情報
・Chao Li , Qiaoyong Zhong , Die Xie , Shiliang Pu
・2017 CVPR
概要
Skeleton-basedの行動認識においてCNNを用いた手法. Skeleton motion によるTwo-stream化とSkeleton Transformerによって精度向上を実現、実験においてLSTMより良い結果.
手法
ネットワークの構造は以下の通り.
関節座標をフレーム順に並べて2次元の入力とし、CNNを用いた畳み込みによって特徴抽出. データセットとしてはRGBDを用いるため、x,y,z座標をそれぞれチャネル方向に重ねて3チャネルとする. それとは別に、フレーム間の座標の変化(差)も同じ様に時間順に並べ(Skeleton motion)、入力として用いる.
全体としては静止画を評価する関節座標の入力と、画像間の変化(RGBにおけるフローに対応)を評価するフレーム間の座標変化の入力(Skeleton motion)によるTwo-streamのネットワークとなっている.
また、座標方向に適当に並べられている座標(頭、左腕、右足、等の順番)を並び替えながら(Skeleton Transformer)、最も学習しやすい並び順を行動認識と同時に学習することによって精度向上を実現.
実験
NTU RGBDデータセットを用いてLSTMを用いた手法との比較.
また、今回の手法においてTwo-streamにした場合としていない場合の比較(Montionの有無). 関節座標の並び順を学習した場合と学習しなかった場合の比較(Transの有無).
新規性
・Skeleton basedな手法においても、フレーム間の変化を入力として用いたTwo-stream networkが有効であることを証明.
・関節座標の並び順(頭、腕、足等の並び順)は学習のしやすさに影響してくる. 並び順を同時に学習することで精度の向上が可能.
コメント・メモ
関節の並び順みたいに割と関係なさそうなことでも精度の向上に繋がるのは意外.
フレーム間の変化はSkeleton based でも強い.
編集日
2018/12/5