Image/Video Captioning

Say As You Wish: Fine-Grained Control of Image Caption Generation With Abstract Scene Graphs oral Shizhe Chen

details
Context-Aware Group Captioning via Self-Attention and Contrastive Features

details
More Grounded Image Captioning by Distilling Image-Text Matching Model

details
Show, Edit and Tell: A Framework for Editing Image Captions

details
Normalized and Geometry-Aware Self-Attention Network for Image Captioning

details
Meshed-Memory Transformer for Image Captioning

details
Better Captioning With Sequence-Level Exploration JinQin

details
X-Linear Attention Networks for Image Captioning JD AI

details
Transform and Tell: Entity-Aware News Image Captioning

details
Syntax-Aware Action Targeting for Video Captioning Dacheng Tao

details
Spatio-Temporal Graph for Video Captioning With Knowledge Distillation

details
Object Relational Graph With Teacher-Recommended Learning for Video Captioning

details

Image/Video-Text

ActBERT: Learning Global-Local Video-Text Representations oral

details
Context-Aware Attention Network for Image-Text Retrieval

details
Graph Structured Network for Image-Text Matching

details
IMRAM: Iterative Matching With Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

details
Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning Shizhe Chen

details
VIOLIN: A Large-Scale Dataset for Video-and-Language Inference

details
12-in-1: Multi-Task Vision and Language Representation Learning Jiasen Lu

details

Counterfactual Vision and Language Learning oral

details
TA-Student VQA: Multi-Agents Training by Self-Questioning oral

details
SQuINTing at VQA Models: Introspecting VQA Models With Sub-Questions oral

details
Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA oral

details
Hierarchical Conditional Relation Networks for Video Question Answering oral

details
In Defense of Grid Features for Visual Question Answering

details

Counterfactual Samples Synthesizing for Robust Visual Question Answering

details

Multi-Task Collaborative Network for Joint Referring Expression Comprehension and Segmentation oral

details
Graph-Structured Referring Expression Reasoning in the Wild oral

details
Visual-textual Capsule Routing for Text-based Video Segmentation oral

details
Bi-Directional Relationship Inferring Network for Referring Image Segmentation Huchuan Lu

details
Cops-Ref: A New Dataset and Task on Compositional Referring Expression Comprehension Qi Wu

details
Referring Image Segmentation via Cross-Modal Progressive Comprehension Si Liu

details
A Real-Time Cross-Modality Correlation Filtering Method for Referring Expression Comprehension Si Liu

details
PhraseCut: Language-Based Image Segmentation in the Wild Adobe

details

Video Object Grounding using Semantic Roles in Language Description Arka Sadhu

details

Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences Alibaba

details

Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Tasks oral

details
REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments oral Peter Anderson Qi Wu, William Yang Wang

details
Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training

details

Iterative Context-Aware Graph Inference for Visual Dialog oral Zheng-jun Zha

details
Vision-Dialog Navigation by Exploring Cross-modal Memory

details
Two Causal Principles for Improving Visual Dialog Hanwang Zhang

details

Unbiased Scene Graph Generation From Biased Training oral Hanwang Zhang

details
GPS-Net: Graph Property Sensing Network for Scene Graph Generation oral Dacheng Tao

details
Action Genome: Actions as Composition of Spatio-temporal Scene Graphs Feifei Li

details

SmallBigNet: Integrating Core and Contextual Views for Video Classification Yu Qiao
3DV: 3D Dynamic Voxel for Action Recognition in Depth Video
Video Modeling with Correlation Networks Facebook AI
X3D: Expanding Architectures for Efficient Video Recognition Facebook AI
Regularization on Spatio-Temporally Smoothed Feature for Action Recognition
Listen to Look: Action Recognition by Previewing Audio
Speech2Action: Cross-modal Supervision for Action Recognition VGG
Uncertainty-aware Score Distribution Learning for Action Quality Assessment
FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding Dahua Lin
Something-Else: Compositional Action Recognition with Spatial-Temporal Interaction Networks
TEA: Temporal Excitation and Aggregation for Action Recognition
Intra- and Inter-Action Understanding via Temporal Action Parsing Dahua lin
Temporal Pyramid Network for Action Recognition
Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Context Aware Graph Convolution for Skeleton-Based Action Recognition Dacheng Tao
PREDICT & CLUSTER: Unsupervised Skeleton Based Action Recognition
Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition MSRA
Skeleton-Based Action Recognition with Shift Graph Convolutional Network
Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition Wanli Ouyang

G-TAD: Sub-Graph Localization for Temporal Action Detection
Learning Temporal Co-Attention Models for Unsupervised Video Action Localization
Weakly-Supervised Action Localization by Generative Attention Modeling
Learning to Discriminate Information for Online Action Detection

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation
SCT: Set Constrained Temporal Transformer for Set Supervised Action Segmentation
Improving Action Segmentation via Graph Based Temporal Reasoning
Set-Constrained Viterbi for Set-Supervised Action Segmentation

Visual Commonsense R-CNN Hanwang Zhang

details
Straight to the Point: Fast-forwarding Videos via Reinforcement Learning Using Textual Data

details