Awesome-Language-Moment-RetrievalAwesome

A curated list of language moment retrieval and related area. :-)

Introduce

从CVPR16开始,学术界开始关注phrase grounding(i.e. object referring),即给一个query,在image中找到找个query对应的object。2017,2018年,大家也逐渐开始关注video中类似的grounding问题,可以被总结为 Grounding Actions and Objects by Language in Videos。Grounding这个词可能不完全准确,很多论文对这个任务都有不同的定义,如Localizing Moments in Video with Natural Language、Retrieval via Natural Language Queries等等。这里统一简写为Language Moment Retrieval。(这里默认针对视频任务)

以下论文总结主要分成两部分:

  • Temporal Activity Localization by Language:给定一个query(包含对activity的描述),找到对应动作(事件)的起止时间;

  • Spatio-temporal object referring by language: 给定一个query(包含对object/person的描述),在时空中找到连续的bounding box (也就是一个tube)。

Format

Markdown format:

- [Paper Name](link) - Author 1 et al, `Conference Year`. [[code]](link)

Change Log

  • Apr. 03 Just started.

Table of Contents

Papers

Survey

  • None.

Before

  • Visual Semantic Search: Retrieving Videos via Complex Textual Queries - Dahua Lin et al, CVPR 2014.

    简介

    手工设计特征。结合appearance, motion和spatial relations等信息设计视觉特征,采用了Semantic Graph设计描述特征,将二者的匹配问题转换成了整型线性规划问题(这个策略同样在ECCV18中也可以看到)。

    基于KITTI数据集(城市道路驾驶场景),数据库较小。

2015

  • None

2016

  • None

2017

  • Where to Play: Retrieval of Video Segments using Natural-Language Queries - S. Lee et al, arXiv 2017.

    简介

    “Tracking by Captioning”的**。

    使用Densecap对视频每一帧进行描述,根据相邻图像Captions之间的相似性进行组合得到视频语义片段。

    采用了两种方法比较Captions之间的相似性:Word2Vec和Skip-thoughts vector。可能因为数据集小小的原因后者效果较优。

  • Localizing Moments in Video with Natural Language - Lisa Anne Hendricks et al, ICCV 2017. [code]

    简介

    RGB与Optical Flow同时作为输入,损失函数为inter-intra video ranking loss。

    标了一个新数据集,DiDeMo(把video切成了连续的长度为5s的片段,即 0s-5s 是第一个片段,5s-10s是第二个...,然后为这5s的片段添加语句描述,这样做其实降低了localization的难度,退化成了一个有限集合的retrieval问题)。DiDeMo中描述句的特性主要包含三个方面:相机视角(zoom,pan,cameraman)、时间关系(after,first)和空间关系(left,bottom)。且动词所占比例较多,这种设计**基于在定位过程中对算法行为的理解是非常重要的。

    Moment Context Network(MCN)对于复杂的描述仍定位困难,如“dog stops, then starts rolling around again”,如何更好的推理语言描述中的语义是一个潜在的改进方向。

  • TALL: Temporal Activity Localization via Language Query - Jiyang Gao et al, ICCV 2017. [code].

    简介

    整个流程分为三步:

    • C3D生成 visual feature;
    • skip-thought / LSTM生成sentence embedding;
    • 将两部分的feature融合在一起 然后生成alignment score和boundary offset。alignment score代表了输入的query和clip是否匹配,boundary offset调整了 输入clip的边界。

    数据集方面:

    • 基于TACoS提供了Charades的语句标注,名为Charades-STA2;
    • 新数据集,DiDeMo(把video切成了连续的长度为5s的片段,即 0s-5s 是第一个片段,5s-10s是第二个...,然后为这5s的片段添加语句描述,这样做其实降低了localization的难度,退化成了一个有限集合的retrieval问题);
    • Activitynet-Caption也提供了时序的语句标注,这个数据集本来是为dense video captioning准备的,但也可以用来做language based localization这个问题。

  • Spatio-temporal Person Retrieval via Natural Language Queries - M. Yamaguchi et al, ICCV 2017. [code]

    简介

    本文聚焦于对视频中符合描述的人的检测,但可以方面得扩展到其他任务,如Clip Retrieval、Action Detection等。

    模型结构如上图所示:

    • 检测每一帧中的人,将相关的检测框连接起来形成tubes;
    • 提取tube features,由6个子特征(box与image的RGB、Optical Flow和C3D特征拼接而成);
    • 提取description features,采用三种方法:FVs based on HGLMM、Skip-thought Vectors和RNN
    • 在DSPE损失函数的基础上又添加了一项:不同模态正样本对之间距离的总和。这样做的目的是使模型直接让正样本对之间靠的更近,实验结果也验证了该方法有效。

2018

  • Find and Focus: Retrieve and Localize Video Events with Natural Language Queries - Dian Shao et al, ECCV 2018.

    简介

    港中文的工作。

    Find and Focus(FIFO)模型整体分为两个部分:

    • Find:top-level matching(paragraph vs video),可以非常高效地滤除数据库中不相关的视频;
    • Focus:part-level association,以句为单位定位视频片段。

    在定位过程中,得到双流特征后,用基于语义的TAG(Temporal Actionness Grouping)生成Clip Proposal,将Sentences与Clip之间的Cross-domain Matching问题转换为Linear Programming问题。

    数据集采用ActivityNet Captions和Modified LSMDC。一些实验结果如下:

  • Object Referring in Videos with Language and Human Gaze - A. B. Vasudevan et al, CVPR 2018. [code].

    简介

    主要特点是添加了观察视频时人眼的信息。

    用两个LSTM分别处理局部信息与全局信息,模型输入源较多,其中人眼图像通过GazeCapture得到视频的大致位置,并将其拼接到局部特征中去(Human Gaze)。应用在一定程度上比较受限。

  • Actor and Action Video Segmentation from a Sentence - Kirill Gavrilyuk et al, CVPR2018.

2019

Dataset

Popular Implementations

PyTorch

  • None.

TensorFlow

  • None.

Others

  • None.

Licenses

CC0

To the extent possible under law, muketong all copyright and related or neighboring rights to this work.