hasanar1f/HiRED

HiRED strategically drops visual tokens in the image encoding stage to improve inference efficiency for High-Resolution Vision-Language Models (e.g., LLaVA-Next) under a fixed token budget.

PythonMIT

Stargazers

Camellia-hz
Chenfeng1271
P.h.D student@University of Adelaide
chenxn2020
FdyCN
HangZhou China
Han-jiaxin
hasanar1f
Virginia Tech
JeffCarpenter
Canada
Luo-Z13
Wuhan University
mrswang1
sikang99
TeamGRIT, Inc.
whuhxb
XiaoYee
Shanghai
xuyang-liu16
Sichuan University