HAKE引擎相关论文以及Noah近期多模态论文代码整理
HAKE引擎是由上海交通大学卢策吾老师团队的李永露老师主导开发的行为识别数据集与代码框架。其主要目的是服务于人的行为识别,具体为人与物体的交互识别(Human-Object Interaction / HOI)。
根据其项目主页,该项目包含了多篇论文与工作。经总结,可归纳为:(1) PaStaNet/HAKE (CVPR2020), (2) TIN: Transferable Interactiveness Network (CVPR2019,TPAMI2022), (3) 2D-3D Matching (CVPR2020), (4) Attribute-Object Composition (CVPR2020), (5) HOI Analysis (NeurIPS2020), (6) Interactiveness Field (CVPR2022), (7) PartMap (ECCV2022).
本文档主要用于指导上述论文中所提供模型的部署和测试。
该模型主要贡献为Loss,并没有提出新的网络模块。所有模块皆为传统卷积层与线性层。
可参考文件:https://github.com/DirtyHarryLYL/HAKE-Action-Torch/blob/DJ-RN-Torch/hakeaction/models/DJRN.py
因为模块比较简单,该指南直接提取并介绍其设计的模块,而不再赘述环境配置与数据处理。
该模型主要用AutoEncoder来解决人物交互HOI任务,其创新点也主要侧重于loss的设计。 其核心AutoEncoder模块由Linear层与BatchNorm1d构成,特征转换模块由Transformer构成,并无其他模块。 因此上述指南直接提取并介绍其设计的网络模块,不再赘述环境配置与数据处理。
目前该项目仅提供部分代码,且没有提供配置信息,暂时无法跑通。 https://github.com/Foruck/Interactiveness-Field
不过该代码主要基于DETR,可从文件中看出其主要模块除了DETR中的Transformer外主要为MLP与Linear
============================== 分割线 ==============================
============================== 分割线 ==============================
我们同时整理的一些诺亚近期开源的多模态论文,包含:(1)FILIP: Fine-grained Interactive Language-Image Pre-Training, (2)Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework, (3) Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding, (4) Generative Negative Text Replay for Continual Vision-Language Pretraining, (5) DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection
本文为CLIP模型的改进版本,因为其主要贡献皆为预训练方式,并没有提供新的模型(仅使用已有Transformer模型)故而不作详细展开。
虽然本文主要贡献为数据集,但是本文依然提供了一个新的Token Reduction Layer模块,上述链接对该模块会做详细介绍。
暂未找到开源代码,可咨询xuhang
暂未找到开源代码,可咨询xuhang
暂未找到开源代码,可咨询xuhang