WHB139426

Focus on MLLMs and their broad applications.

M.S@FDU, B.S@SEUShanghai

Pinned Repositories

DinoV2-SigLIP-Phi3-LoRA-VLM
Language:Python15 2 20
GCG
Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [ACM MM'24]
Language:Python9 2 11
Grounded-Video-LLM
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models
Language:Python754
QA-Prompts
Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge [ECCV'24]
Language:Python4 2 30
WHB139426.github.io
Github Pages template for academic personal websites, forked from mmistakes/minimal-mistakes
Language:JavaScript0 0 00
YoLLaVA
🌋👵🏻 Yo'LLaVA: Your Personalized Language and Vision Assistant
Language:Python76 1 86

WHB139426/GCG
Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [ACM MM'24]
Language:Python9 2 11
WHB139426/QA-Prompts
Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge [ECCV'24]
Language:Python4 2 30
WHB139426/Grounded-VideoLLM
Language:Python00
WHB139426/WHB139426.github.io
Github Pages template for academic personal websites, forked from mmistakes/minimal-mistakes
Language:JavaScript0 0 00