visual-grounding

There are 46 repositories under visual-grounding topic.

TheShadow29/awesome-grounding
awesome grounding: A curated list of research papers in visual grounding
1k 28 598
rhett-chen/Robotic-grasping-papers
paper list of robotic grasping and some related works
258 7 016
daveredrum/ScanRefer
[ECCV 2020] ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language
Language:Python237 9 2729
Charles-Xie/awesome-described-object-detection
A curated list of papers and resources related to Described Object Detection, Open-Vocabulary/Open-World Object Detection and Referring Expression Comprehension. Updated frequently and pull requests welcomed.
204 9 015
antoyang/TubeDETR
[CVPR 2022 Oral] TubeDETR: Spatio-Temporal Video Grounding with Transformers
Language:Python172 3 228
LeapLabTHU/Pseudo-Q
[CVPR 2022] Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding
Language:Python144 3 2210
seanzhuh/SeqTR
SeqTR: A Simple yet Universal Network for Visual Grounding
Language:Python131 1 3514
yanmin-wu/EDA
[CVPR 2023] EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding
Language:Python109 3 224
ChenyunWu/PhraseCutDataset
Dataset API for "PhraseCut: Language-based Image Segmentation in the Wild"
Language:Jupyter Notebook106 7 411
jianghaojun/Awesome-3D-Vision-and-Language
A collection of 3D vision and language (e.g., 3D Visual Grounding, 3D Question Answering and 3D Dense Caption) papers and datasets.
95 4 15
yangli18/VLTVG
Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning, CVPR 2022
Language:Python91 2 218
JerryX1110/awesome-rvos
Referring Video Object Segmentation / Multi-Object Tracking Repo
Language:Python87 6 14
3dlg-hcvc/M3DRef-CLIP
[ICCV 2023] Multi3DRefer: Grounding Text Description to Multiple 3D Objects
Language:Python75 1 193
TheShadow29/vognet-pytorch
[CVPR20] Video Object Grounding using Semantic Roles in Language Description (https://arxiv.org/abs/2003.10606)
Language:Python67 4 87
doc-doc/vRGV
Visual Relation Grounding in Videos (ECCV'20, Spotlight)
Language:Python57 3 97
zlccccc/3DVL_Codebase
[CVPR2022 Oral] 3DJCG: A Unified Framework for Joint Dense Captioning and Visual Grounding on 3D Point Clouds
Language:Python53 3 105
zjukg/DUET
[Paper][AAAI 2023] DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning
Language:Python49 4 38
MultimodalGeo/GeoText-1652
An offical repo for ECCV 2024 Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching
Language:Python47 1 51
svip-lab/LBYLNet
[CVPR2021] Look before you leap: learning landmark features for one-stage visual grounding.
Language:Python47 3 129
chihyaoma/cyclical-visual-captioning
PyTorch code for: Learning to Generate Grounded Visual Captions without Localization Supervision
Language:Python44 4 33
CurryYuan/ZSVG3D
[CVPR 2024] Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding
Language:Jupyter Notebook44 2 61
daveredrum/D3Net
[ECCV2022] D3Net: A Unified Speaker-Listener Architecture for 3D Dense Captioning and Visual Grounding
Language:Python41 2 56
zlccccc/3DVG-Transformer
[ICCV2021] 3DVG-Transformer: Relation Modeling for Visual Grounding on Point Clouds
Language:Python39 1 84
uvavision/SelfEQ
[CVPR 2024] Code for "Improved Visual Grounding through Self-Consistent Explanations".
Language:Python22 1 31
CurryYuan/PhraseRefer
Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases
Language:JavaScript12 2 20
xuyang-liu16/VGDiffZero
[ICASSP 2024] VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders
Language:Python10 3 00
marialymperaiou/knowledge-enhanced-multimodal-learning
A list of research papers on knowledge-enhanced multimodal learning
7 1 00
1989Ryan/paragon
[ICRA 2023] Differentiable parsing and visual grounding of natural language instructions for object placement
Language:Python6 1 11
gorjanradevski/text2atlas
Codebase for "Learning to ground medical text in a 3D human atlas (CoNLL 2020)".
Language:Python6 4 01
CompGuessWhat/comp_probing
Code used to train probing classifiers in the attribute prediction task
Language:Python5 4 00
JHKim-snu/PGA
[IROS 2024] PGA: Personalizing Grasping Agents with Single Human-Robot Interaction
Language:Python4 2 00
akskuchi/groovist
GROOViST: A Metric for Grounding Objects in Visual Storytelling – EMNLP 2023
Language:Python2 1 01
bwittmann/TransformerRefer
Utilizing a transformer-based object detector for the task of 3D visual grounding.
Language:Python2 2 00
ChenBarryHu/TransformerVG
TransformerVG - 3D Visual Grounding with Transformers
Language:Python2 1 10
scofield7419/MUIE
MUIE: Multimodal Universal Information Extraction
Language:JavaScript2 2 0
3dlg-hcvc/ENet-ScanNet
Helper tools for extracting and projecting ENet features to ScanNet pointclouds.
Language:Python1 1 1

visual-grounding

TheShadow29/awesome-grounding

rhett-chen/Robotic-grasping-papers

daveredrum/ScanRefer

Charles-Xie/awesome-described-object-detection

antoyang/TubeDETR

LeapLabTHU/Pseudo-Q

seanzhuh/SeqTR

yanmin-wu/EDA

ChenyunWu/PhraseCutDataset

jianghaojun/Awesome-3D-Vision-and-Language

yangli18/VLTVG

JerryX1110/awesome-rvos

3dlg-hcvc/M3DRef-CLIP

TheShadow29/vognet-pytorch

doc-doc/vRGV

zlccccc/3DVL_Codebase

zjukg/DUET

MultimodalGeo/GeoText-1652

svip-lab/LBYLNet

chihyaoma/cyclical-visual-captioning

CurryYuan/ZSVG3D

daveredrum/D3Net

zlccccc/3DVG-Transformer

uvavision/SelfEQ

CurryYuan/PhraseRefer

xuyang-liu16/VGDiffZero

marialymperaiou/knowledge-enhanced-multimodal-learning

1989Ryan/paragon

gorjanradevski/text2atlas

CompGuessWhat/comp_probing

JHKim-snu/PGA

akskuchi/groovist

bwittmann/TransformerRefer

ChenBarryHu/TransformerVG

scofield7419/MUIE

3dlg-hcvc/ENet-ScanNet