此仓库记录阅读/寻找多模态对话相关的论文
论文名称(简称) |
笔记状态 |
年份 |
会议/期刊 |
CCF级别 |
研究机构 |
概述 |
Openvidial, OpenVidial2.0 |
✅ |
2021 |
arXiv |
-- |
ShannonAI |
多模态对话数据集;电视剧抽帧;提供图片特征 |
SER30K |
❌ |
2022 |
ACM MM |
A |
Nankai University |
meme梗图和sticker的数据集,表情包情感分类器 |
MMChat |
✅ |
2021 |
arXiv |
-- |
Alibaba |
一个中文多模态对话数据集,benchmark采用了注意力路由机制来解决图像稀疏性问题 |
MMDialog |
✅ |
2022 |
arXiv |
-- |
microsoft |
超大规模多轮对话图文多模态数据集 |
PhotoChat |
✅ |
2021 |
arXiv |
-- |
Google research |
真实照片-对话多模态数据集(小规模) |
MOD-Bot |
✅ |
2022 |
arXiv |
-- |
Baidu |
DSTC-10 MOD任务的任务报告,每句话都有情感标签,每句话都可能有表情包 |
论文名称(简称) |
笔记状态 |
年份 |
会议/期刊 |
CCF级别 |
研究机构 |
概述 |
CLIP |
✅ |
2021 |
ICML |
A |
OpenAI |
基于对比学习的图文检索预训练模;双流 |
ViLT |
✅ |
2021 |
ICML |
A |
NAVER AI |
|
Visual-Bert |
✅ |
2019 |
arXiv |
-- |
University of California |
基于transformer的多模态预训练模型;单流 |
FILIP |
✅ |
2021 |
arXiv |
-- |
Huawei Noah’s Ark Lab |
比CLIP更细粒度;双流 |
ALIGN |
✅ |
2021 |
PMLR |
A |
Google Research |
相比于CLIP运用了更大规模、噪声更多的数据集;双流 |
VilBert(visual-and-language Bert) |
❌ |
2019 |
NeurlPS |
A |
Georgia Institute of Technology |
早期的视觉-语言跨模态预训练模型;双流 |
论文名称(简称) |
笔记状态 |
年份 |
会议/期刊 |
CCF级别 |
研究机构 |
概述 |
memeBot |
✅ |
2020 |
arXiv |
-- |
Arizona State University |
以文字生成+图片检索(梗图被表示为ocr+title)的方式进行meme梗图回复,本文是DSTC-10MOD任务的报告 |
(Divter)Multimodal Dialogue Response Generation |
✅ |
2022 |
ACL |
A |
Microsoft STC Asia |
Divter,sota的多模态(文本+图像)对话生成 |
Zero-Shot Text-to-Image Generation |
❌ |
2021 |
ICML |
A |
|
|
GODEL |
❌ |
2022 |
arXiv |
-- |
Microsoft |
|
|
|
|
|
|
|
|
因为近期的工作涉及共情对话,所以阅读了一些共情对话的文章。
论文名称(简称) |
笔记状态 |
年份 |
会议/期刊 |
CCF级别 |
研究机构 |
概述 |
UPT |
✅ |
2022 |
EMNLP |
B |
Alibaba |
upt:从non-target任务中学习提示知识来提升few-shot文本分类效果 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
论文名称(简称) |
笔记状态 |
年份 |
会议/期刊 |
CCF级别 |
研究机构 |
概述 |
Attention is all you need |
❌ |
2017 |
NIPS |
A |
Google |
Transformer开山之作,提出了多头自注意力机制 |
BERT |
✅ |
|
arXiv |
-- |
Google AI Language |
BERT开山之作,多层transformer |
|
|
|
|
|
|
|