ZhangYiqun018/Multimodel-Dialog

自己阅读的多模态对话系统论文（及部分笔记）汇总

说明

此仓库记录阅读/寻找多模态对话相关的论文

多模态数据集
多模态预训练模型
多模态生成
共情对话
经典论文

多模态数据集

论文名称(简称)	笔记状态	年份	会议/期刊	CCF级别	研究机构	概述
Openvidial, OpenVidial2.0	✅	2021	arXiv	--	ShannonAI	多模态对话数据集；电视剧抽帧；提供图片特征
SER30K	❌	2022	ACM MM	A	Nankai University	meme梗图和sticker的数据集，表情包情感分类器
MMChat	✅	2021	arXiv	--	Alibaba	一个中文多模态对话数据集，benchmark采用了注意力路由机制来解决图像稀疏性问题
MMDialog	✅	2022	arXiv	--	microsoft	超大规模多轮对话图文多模态数据集
PhotoChat	✅	2021	arXiv	--	Google research	真实照片-对话多模态数据集（小规模）
MOD-Bot	✅	2022	arXiv	--	Baidu	DSTC-10 MOD任务的任务报告，每句话都有情感标签，每句话都可能有表情包

多模态预训练模型

论文名称(简称)	笔记状态	年份	会议/期刊	CCF级别	研究机构	概述
CLIP	✅	2021	ICML	A	OpenAI	基于对比学习的图文检索预训练模；双流
ViLT	✅	2021	ICML	A	NAVER AI
Visual-Bert	✅	2019	arXiv	--	University of California	基于transformer的多模态预训练模型；单流
FILIP	✅	2021	arXiv	--	Huawei Noah’s Ark Lab	比CLIP更细粒度；双流
ALIGN	✅	2021	PMLR	A	Google Research	相比于CLIP运用了更大规模、噪声更多的数据集；双流
VilBert（visual-and-language Bert）	❌	2019	NeurlPS	A	Georgia Institute of Technology	早期的视觉-语言跨模态预训练模型；双流

多模态生成

论文名称(简称)	笔记状态	年份	会议/期刊	CCF级别	研究机构	概述
memeBot	✅	2020	arXiv	--	Arizona State University	以文字生成+图片检索（梗图被表示为ocr+title）的方式进行meme梗图回复，本文是DSTC-10MOD任务的报告
(Divter)Multimodal Dialogue Response Generation	✅	2022	ACL	A	Microsoft STC Asia	Divter，sota的多模态（文本+图像）对话生成
Zero-Shot Text-to-Image Generation	❌	2021	ICML	A
GODEL	❌	2022	arXiv	--	Microsoft

共情对话

因为近期的工作涉及共情对话，所以阅读了一些共情对话的文章。

论文名称(简称)	笔记状态	年份	会议/期刊	CCF级别	研究机构	概述
CEM	✅	2022	AAAI	A	Tsinghua University
Empathetic Dialogue Dataset	❌	2019	ACL	A	Facebook AI Research

提示学习

论文名称(简称)	笔记状态	年份	会议/期刊	CCF级别	研究机构	概述
UPT	✅	2022	EMNLP	B	Alibaba	upt：从non-target任务中学习提示知识来提升few-shot文本分类效果

经典论文

论文名称(简称)	笔记状态	年份	会议/期刊	CCF级别	研究机构	概述
Attention is all you need	❌	2017	NIPS	A	Google	Transformer开山之作，提出了多头自注意力机制
BERT	✅		arXiv	--	Google AI Language	BERT开山之作，多层transformer