Hello,大家好,我是小马🚀🚀🚀
作为研究生,读论文一直都是都是一件非常费时费脑的事情,因为帮助大家用5分钟的时间就能知道某篇论文的大致内容,我会把我看过的论文做好解析分享在这里。**项目持续更新,每周至少更新三篇!**⭐⭐⭐
本项目的宗旨是🚀让世界上没有难读的论文🚀,论文主题包括但不限于检测、分类、分割、Backbone、多模态等等,论文来源包括但不限于最新的arXiv论文、ICCV2021、CVPR2021、MM2021。**(项目会保持持续更新,每周至少三篇)**⭐⭐⭐
(最新还更新了【Attention、MLP、Conv、MLP、Backbone的代码复现项目】,欢迎大家学习交流)
欢迎大家关注公众号:FightingCV
公众号每天都会进行论文、算法和代码的干货分享哦~
已建立机器学习/深度学习算法/计算机视觉/多模态交流群微信交流群!
每天在群里分享一些近期的论文和解析,欢迎大家一起学习交流哈~~~
强烈推荐大家关注知乎账号和FightingCV公众号,可以快速了解到最新优质的干货资源。
- 多模态Transformer真的多模态了吗?论多模态Transformer对跨模态的影响
【Vision-and-Language or Vision-for-Language? On Cross-Modal Inflfluence in Multimodal Transformers】
-
ICCV2021 Oral-MDETR:图灵奖得主Yann LeCun的团队&Facebook提出端到端多模态理解的目标检测器
【MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding】 -
ICCV2021-NTU用多样性的query生成,涨点基于文本的实例分割(已开源)
【Vision-Language Transformer and Query Generation for Referring Segmentation】 -
ICCV2021-如何高效视频定位?北大&Adobe&QMUL强强联手提出弱监督CRM,性能SOTA
【Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation】 -
ICCV2021-TOCo-微软&CMU提出Token感知的级联对比学习方法,在视频文本对齐任务上“吊打”其他SOTA方法
【TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment】 -
ICCV2021 Oral-新任务!新数据集!康奈尔大学提出了类似VG但又不是VG的PVG任务
【Who’s Waldo? Linking People Across Text and Images】
- ICCV2021-DetCo:性能优于何恺明等人提出的MoCo v2,为目标检测定制任务的对比学习。
【DetCo: Unsupervised Contrastive Learning for Object Detection】
-
ICCV2021 Oral-TAU&Facebook提出了通用的Attention模型可解释性
【Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers】 -
ICCV2021 -为什么深度学习模型能够分类正确?SCOUTER能够“正”“反”两个方面说服你。
【SCOUTER: Slot Attention-based Classifier for Explainable Image Recognition】
-
ICCV2021-iRPE-还在魔改Transformer结构吗?微软&中山大学提出超强的图片位置编码,涨点显著
【Rethinking and Improving Relative Position Encoding for Vision Transformer】 -
ICCV2021 | 池化操作不是CNN的专属,Vision Transformer说:“我也可以”;南大提出池化视觉Transformer(PiT)
【Rethinking Spatial Dimensions of Vision Transformers】 -
ICCV2021 | CNN+Transformer=Better,国科大&华为&鹏城实验室 出Conformer,84.1% Top-1准确率
【Conformer: Local Features Coupling Global Representations for Visual Recognition】 -
ICCV2021 | MicroNets-更小更快更好的MicroNet,三大CV任务都秒杀MobileNetV3
【MicroNet: Improving Image Recognition with Extremely Low FLOPs】
-
ICCV2021-MuST-还在特定任务里为刷点而苦苦挣扎?谷歌的大佬们都已经开始玩多任务训练了
【Multi-Task Self-Training for Learning General Representations】 -
ICCV2021-CV多任务新进展!一节更比三节强的MultiTask CenterNet,用一个网络同时完成目标检测、语义分割和人体姿态估计三个任务
【MultiTask-CenterNet (MCN): Efficient and Diverse Multitask Learning using an Anchor Free Approach】
-
ICCV 2021|“白嫖”性能的MixMo,一种新的数据增强or模型融合方法
【MicroNet: Improving Image Recognition with Extremely Low FLOPs】 -
ICCV'21 Oral|拒绝调参,显著提点!检测分割任务的新损失函数RS Loss开源
【Rank & Sort Loss for Object Detection and Instance Segmentation】 -
ICCV21 | 大道至简,仅需4行代码提升多标签分类性能! 南大提出Residual Attention
【Residual Attention: A Simple but Effective Method for Multi-Label Recognition】 -
ICCV2021 Oral-UNO-用于Novel Class Discovery 的统一目标函数,简化训练流程!已开源!
【A Unified Objective for Novel Class Discovery】 -
ICCV2021-别魔改网络了,模型精度不高,是你Resize的方法不够好!Google提出基于DL的调整器模型学习更好的Resize方法
【Learning to Resize Images for Computer Vision Tasks】 -
ICCV2021-《GroupFormer》-商汤&港理工提出基于聚类的联合建模时空关系的GroupFormer用于解决群体活动识别问题,性能SOTA
【GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer】
-
ACM MM2021-还在用ViT的16x16 Patch分割方法吗?中科院自动化所提出Deformable Patch-based方法,涨点显著!
【DPT: Deformable Patch-based Transformer for Visual Recognition】 -
ACMMM 2021-多模态宝藏!京东梅涛团队重磅开源第一个适用于多个任务的多模态代码库x-modaler!
【X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics】 -
ACMMM 2021-性能SOTA!用GNN和GAN的方式来强化Video Captioning的学习!
【Discriminative Latent Semantic Graph for Video Captioning】
- ICML2021-《ALIGN》-大力出奇迹,谷歌用18亿的图像-文本对训练了一个这样的模型。
【Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision】
-
Less is More-CVPR2021最佳学生论文提名
【Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling】 -
CVPR2021-RSTNet:自适应Attention的“看图说话”模型
【RSTNet: Captioning With Adaptive Attention on Visual and Non-Visual Words】 -
CVPR2021 Oral《Seeing Out of the Box》北科大&中山大学&微软提出端到端视觉语言表征预训练方法
【Seeing Out of the Box: End-to-End Pre-Training for Vision-Language Representation Learning】 -
CVPR2021-开放式的Video Captioning,中科院自动化所提出基于“检索-复制-生成”的网络
【Open-book Video Captioning with Retrieve-Copy-Generate Network】 -
CVPR2021-多模态任务新进展!哥大&Facebook提出VX2TEXT模型,实现了“视频+X”到“文本”的任务
【VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs】 -
CVPR2021-人大提出新模型,将Two Stage的Video Paragraph Captioning变成One Stage,性能却没下降
【Towards Diverse Paragraph Captioning for Untrimmed Videos】
-
谷歌新作HaloNet:Transformer一作用Self-Attention的方式进行卷积
【Scaling Local Self-Attention for Parameter Efficient Visual Backbones】 -
Involution(附对Involution的思考):港科大、字节跳动、北大提出“内卷”神经网络算子,在CV三大任务上提点明显
【Involution: Inverting the Inherence of Convolution for Visual Recognition】
-
SIGIR 2021 最佳学生论文-图像文本检索的动态模态交互建模
【Dynamic Modality Interaction Modeling for Image-Text Retrieval】 -
SimVLM-拒绝各种花里胡哨!CMU&Google提出弱监督极简VLP模型,在多个多模态任务上性能SOTA
【SimVLM: Simple Visual Language Model Pretraining with Weak Supervision】
-
OutLook Attention:具有局部信息感知能力的ViT
【VOLO: Vision Outlooker for Visual Recognition】 -
CoAtNet:卷积+注意力=???
【CoAtNet: Marrying Convolution and Attention for All Data Sizes】 -
Multi-Scale Densenet续作?动态ViT
【Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length】 -
微软新作Focal Self-Attention:具备Local和Global交互能力的Transformer
【Focal Self-attention for Local-Global Interactions in Vision Transformers】 -
CSWin-T:微软、中科大提出十字形注意力的CSWin Transformer
【CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows】 -
Circle Kernel:清华黄高团队、康奈尔大学提出圆形卷积,进一步提升卷积结构的性能
【Integrating Circle Kernels into Convolutional Neural Networks】 -
视觉解析器ViP:牛津大学&字节跳动提出Visual Parser,显式建模高级语义信息
【Visual Parser: Representing Part-whole Hierarchies with Transformers】 -
LG-Transformer:全局和局部建模Transformer结构新作
【Local-to-Global Self-Attention in Vision Transformers】 -
CoTNet-重磅开源!京东AI Research提出新的主干网络CoTNet,在CVPR上获得开放域图像识别竞赛冠军
【Contextual Transformer Networks for Visual Recognition】 -
S²-MLPv2-百度提出目前最强的视觉MLP架构,超越MLP-Mixer、Swin Transformer、CycleMLP等,达到83.6% Top-1准确率
【S²-MLPv2: Improved Spatial-Shift MLP Architecture for Vision】 -
更深和更宽的Transformer,那个比较好?NUS团队给出了给出“Go Wider Instead of Deeper”的结论
【Go Wider Instead of Deeper】 -
在目标检测任务上怒涨8.6 AP,微软新作MobileFormer
【Mobile-Former: Bridging MobileNet and Transformer】 -
又简单又好用的Transformer变体!清华&MSRA开源线性复杂度的Fastformer!
【Fastformer: Additive Attention Can Be All You Need】 -
《Visformer》-对视觉任务更友好的Transformer,北航团队开源Visformer!
【Visformer: The Vision-friendly Transformer】 -
《CrossFormer》-简单高效!浙大CAD&腾讯&哥大开源跨尺度的Transformer,显著涨点检测、分割、分类三大CV任务
【CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention】
-
MaskFormer:语义分割、实例分割“大一统”:Facebook&UIUC提出MaskFormer
【Per-Pixel Classification is Not All You Need for Semantic Segmentation】 -
新的通道和空间注意力建模结构Polarized Self-Attention,霸榜COCO人体姿态估计和Cityscapes语义分割
【Polarized Self-Attention: Towards High-quality Pixel-wise Regression】
- 让模型实现“终生学习”,佐治亚理工学院提出Data-Free的增量学习
【Always Be Dreaming: A New Approach for Data-Free Class-Incremental Learning】
-
Video Swin Transformer-既Swin Transformer之后,MSRA开源Video Swin Transformer,在视频数据集上SOTA
【Video Swin Transformer】 -
DynamicViT-还在用全部token训练ViT?清华&UCLA提出token的动态稀疏化采样,降低inference时的计算量
【DynamicViT: Effificient Vision Transformers with Dynamic Token Sparsifification】 -
拒绝Prompt Engineering,NTU提出CoOp,自适应学习不同下游任务的Prompt,性能碾压手工设计的Prompt
【Learning to Prompt for Vision-Language Models】 -
《Anchor DETR》-加了Anchor Point能够让DETR又快又好?旷视孙剑团队提出Anchor DETR
【Anchor DETR: Query Design for Transformer-Based Detector】 -
加速了DeiT-S 60%+的吞吐量!自动化所&上交&优图提出Evo-ViT,用Slow-Fast的方式更新token
【Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer】