Large-scale weakly-supervised pre-training for video action recognition 리뷰

비디오 액션 인식을 위한 대규모 pre-training


This paper presents an in-depth study of using large volumes of web videos for per-training video models for the task of action recognition
본 논문에서는 action recognition 인식 과제를 위한 per-training video에 대량의 web videos 를 사용하는 방법에 대한 심층적인 연구를 제시

Further, we examine three questions in the construction of weakly-supervised video action datasets.
weakly-supervised video action datasets 구축에 있어 세 가지 문제를 검토해야한다.

  1. First, given that actions involve interactions with objects, how should one construct a verb-object pre- training label space to benefit transfer learning the most?
    -> action에 는 대상과의 상호작용이 수반되는 점을 감안할 때, 어떻게 하면 이전 학습에 가장 유리하도록 verb-object pre- training 라벨 공간을 구축해야 하는가 ?

  2. frame-based models perform quite well on action recognition; is pre-training for good image features sufficient or is pre-training for spatio-temporal features valu- able for optimal transfer learning?
    -> frame-based models 기반 동작인식에서 상당히 우수한 성능을 발휘한다.
    -> 고려해야 할 사항으로 좋은 이미지가 충분히 있는가 ?