每日论文阅读记录

Daily Reading

[2023-3-13]- [A $^3$ lign-DFER: Pioneering Comprehensive Dynamic Affective Alignment for Dynamic Facial Expression Recognition with CLIP]-Arxiv

论文框架图（有助于一眼就能想起论文内容）论文简述：在CLIP的基础上，提出多个模块，从affective, dynamic和bidirectional三个角度实现了动态情感对齐，达到了较高的performance。在vision-language模型里达到了SOTA。冻结了了CLIP的预训练模型

[2023-3-14] “emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation” (Ma 等, 2023, p. 1) (pdf)

论文框架图（有助于一眼就能想起论文内容）预训练的数据集

论文简述：自监督预训练模型用于语音情绪识别, 在下游多个数据集上面达到了 sota

[2023-3-17] OmniVec: Learning robust representations with cross modal sharing

提出了一个统一的模型架构，将多种模态的数据编码到同一个向量空间（OmniVec）输入是不同的模态，使用不同的 encoder编码，后续使用同一个框架将各种模态数据编码到同一向量空间。在下游各种任务上达到了 SOTA。

Image + Video pretrain for downstream tasks

EVT: BERT Pretraining of Video Transformers (CVPR 2022)

描述: 将 BERT-Style 预训练的方式扩展到了Video task, 将视频表征学习解耦成空间学习和时间学习，预测 target 仿照 bert 预测 visual tokens

OmniMAE: Single Model Masked Pretraining on Images and Videos (CVPR 2023)

描述: 提出了统一的编码器解码器，一个模型可以接受图像或者视频的输入，使用 Image+Video 预训练可以使用极高的掩码率（iamge:90%, video:95%), 提升了下游任务的性能

ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders

描述: 加入了对比学习，进一步提升了模型的表征能力，同时在 Image 和 video相关的 task上达到 sota 性能

######### 模版 #############

[日期]-[总结人]-[论文标题]-[来源]（附带链接，链接可选）

论文框架图（有助于一眼就能想起论文内容）

论文简述（一两句话总结精华，切勿过长）

######### 模版 #############

cyinen/paper-readings

每日论文阅读记录

Daily Reading

Image + Video pretrain for downstream tasks