cvpr 2016 accepted papers - language and vision

6 Learning Deep Representations of Fine-Grained Visual Descriptions.

Scott Reed, Zeynep Akata, Honglak Lee , Bernt Schiele

http://www-personal.umich.edu/~reedscot/files/cvpr2016.pdf

7 Multi-Cue Zero-Shot Learning With Strong Supervision.

Zeynep Akata, Mateusz Malinowski, Mario Fritz, Bernt Schiele

http://arxiv.org/abs/1603.08754

8 Latent Embeddings for Zero-Shot Classification.

Yongqin Xian, Zeynep Akata, Gaurav Sharma, Quynh Nguyen, Matthias Hein, Bernt Schiele

http://arxiv.org/abs/1603.08895

9 One-Shot Learning of Scene Locations via Feature Trajectory Transfer.

Roland Kwitt, Sebastian Hegenbart, Marc Niethammer

10 Learning Attributes Equals Multi-Source Domain Generalization.

Chuang Gan, Tianbao Yang, Boqing Gong

https://arxiv.org/abs/1605.00743

11 Anticipating Visual Representations From Unlabeled Video.

Carl Vondrick, Hamed Pirsiavash, Antonio Torralba

paper cited by 12

22 What Value Do Explicit High Level Concepts Have in Vision to Language Problems?.

Qi Wu, Chunhua Shen, Lingqiao Liu, Anthony Dick, Anton van den Hengel

http://arxiv.org/abs/1506.01144

5 Jointly Modeling Embedding and Translation to Bridge Video and Language.

Yingwei Pan, Tao Mei, Ting Yao, Houqiang Li, Yong Rui

http://arxiv.org/abs/1505.01861

46 Answer-Type Prediction for Visual Question Answering.

Kushal Kafle, Christopher Kanan

47 Visual Word2Vec (vis-w2v): Learning Visually Grounded Word Embeddings Using Abstract Scenes.

Satwik Kottur, Ramakrishna Vedantam, José M. F. Moura, Devi Parikh

http://arxiv.org/abs/1511.07067

48 Visual7W: Grounded Question Answering in Images.

Yuke Zhu, Oliver Groth, Michael Bernstein, Li Fei-Fei

https://arxiv.org/abs/1511.03416

49 Learning Deep Structure-Preserving Image-Text Embeddings.

Liwei Wang, Yin Li, Svetlana Lazebnik

https://arxiv.org/abs/1511.06078

50 Yin and Yang: Balancing and Answering Binary Visual Questions.

Peng Zhang, Yash Goyal, Douglas Summers-Stay, Dhruv Batra, Devi Parikh

http://arxiv.org/abs/1511.05099

79 MSR-VTT: A Large Video Description Dataset for Bridging Video and Language.

Jun Xu, Tao Mei, Ting Yao, Yong Rui

http://research.microsoft.com/apps/pubs/default.aspx?id=264836

314rated/yet-weka