关于视觉对话的工作
1.目前的很多工作@Visual Dialog探索历史,通过softmax attention。但是这个could distract to answer the questions requiring partial or even no contextual information.
1.理解input image/questions/dialog history。
2.reason semantic structures among them.
就是VQA只需要回答关于图像的一个问题而已,而视觉对话就是需要回答一系列的问题。