/Multimodel-Dialog

自己阅读的多模态对话系统论文(及部分笔记)汇总

说明

此仓库记录阅读/寻找多模态对话相关的论文

多模态数据集

论文名称(简称) 笔记状态 年份 会议/期刊 CCF级别 研究机构 概述
Openvidial, OpenVidial2.0 2021 arXiv -- ShannonAI 多模态对话数据集;电视剧抽帧;提供图片特征
SER30K 2022 ACM MM A Nankai University meme梗图和sticker的数据集,表情包情感分类器
MMChat 2021 arXiv -- Alibaba 一个中文多模态对话数据集,benchmark采用了注意力路由机制来解决图像稀疏性问题
MMDialog 2022 arXiv -- microsoft 超大规模多轮对话图文多模态数据集
PhotoChat 2021 arXiv -- Google research 真实照片-对话多模态数据集(小规模)
MOD-Bot 2022 arXiv -- Baidu DSTC-10 MOD任务的任务报告,每句话都有情感标签,每句话都可能有表情包

多模态预训练模型

论文名称(简称) 笔记状态 年份 会议/期刊 CCF级别 研究机构 概述
CLIP 2021 ICML A OpenAI 基于对比学习的图文检索预训练模;双流
ViLT 2021 ICML A NAVER AI
Visual-Bert 2019 arXiv -- University of California 基于transformer的多模态预训练模型;单流
FILIP 2021 arXiv -- Huawei Noah’s Ark Lab 比CLIP更细粒度;双流
ALIGN 2021 PMLR A Google Research 相比于CLIP运用了更大规模、噪声更多的数据集;双流
VilBert(visual-and-language Bert) 2019 NeurlPS A Georgia Institute of Technology 早期的视觉-语言跨模态预训练模型;双流

多模态生成

论文名称(简称) 笔记状态 年份 会议/期刊 CCF级别 研究机构 概述
memeBot 2020 arXiv -- Arizona State University 以文字生成+图片检索(梗图被表示为ocr+title)的方式进行meme梗图回复,本文是DSTC-10MOD任务的报告
(Divter)Multimodal Dialogue Response Generation 2022 ACL A Microsoft STC Asia Divter,sota的多模态(文本+图像)对话生成
Zero-Shot Text-to-Image Generation 2021 ICML A
GODEL 2022 arXiv -- Microsoft

共情对话

因为近期的工作涉及共情对话,所以阅读了一些共情对话的文章。

论文名称(简称) 笔记状态 年份 会议/期刊 CCF级别 研究机构 概述
CEM 2022 AAAI A Tsinghua University
Empathetic Dialogue Dataset 2019 ACL A Facebook AI Research

提示学习

论文名称(简称) 笔记状态 年份 会议/期刊 CCF级别 研究机构 概述
UPT 2022 EMNLP B Alibaba upt:从non-target任务中学习提示知识来提升few-shot文本分类效果

经典论文

论文名称(简称) 笔记状态 年份 会议/期刊 CCF级别 研究机构 概述
Attention is all you need 2017 NIPS A Google Transformer开山之作,提出了多头自注意力机制
BERT arXiv -- Google AI Language BERT开山之作,多层transformer