DLrook

Pinned Repositories

MaPeT
Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training
Language:Python15 6 21
grid-feats-vqa
Grid features pre-training code for visual question answering
Language:Python00
bottom-up-attention.pytorch
A PyTorch reimplementation of bottom-up-attention models
Language:Jupyter Notebook294 2 9576
mcan-vqa
Deep Modular Co-Attention Networks for Visual Question Answering
Language:Python445 6 3888
RUArt
RUArt: A Novel Text-Centered Solution for Text-Based Visual Question Answering
Language:Python10 2 31

DLrook/grid-feats-vqa
Grid features pre-training code for visual question answering
Language:Python00