FoundationVision

Bytedance's opensource FoundationVision models

Pinned Repositories

ByteTrack
[ECCV 2022] ByteTrack: Multi-Object Tracking by Associating Every Detection Box
Language:Python5.8k 43 3911.1k
FlashVideo
[AAAI-2026]FlashVideo: Flowing Fidelity to Detail for Efficient High-Resolution Video Generation
Language:Python449 11 2224
GLEE
[CVPR2024 Highlight]GLEE: General Object Foundation Model for Images and Videos at Scale
Language:Python1.2k 32 5474
Groma
[ECCV2024] Grounded Multimodal Large Language Model with Localized Visual Tokenization
Language:Python578 26 4644
Infinity
[CVPR 2025 Oral]Infinity ∞ : Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
Language:Python1.5k 24 11981
Liquid
(Accepted by IJCV) Liquid: Language Models are Scalable and Unified Multi-modal Generators
Language:Python626 19 2333
LlamaGen
Autoregressive Model Beats Diffusion: 🦙 Llama for Scalable Image Generation
Language:Python1.9k 23 8789
VAR
[NeurIPS 2024 Best Paper Award][GPT beats diffusion🔥] [scaling laws in visual generation📈] Official impl. of "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction". An *ultra-simple, user-friendly yet state-of-the-art* codebase for autoregressive image generation!
Language:Jupyter Notebook8.5k 100 161543
VNext
Next-generation Video instance recognition framework on top of Detectron2 which supports InstMove (CVPR 2023), SeqFormer(ECCV Oral), and IDOL(ECCV Oral))
Language:Python616 16 7055
Waver
Industry-level video foundation model for unified Text-to-Video (T2V) and Image-to-Video (I2V) generation.
701 28 567

FoundationVision's Repositories

FoundationVision/VAR
[NeurIPS 2024 Best Paper Award][GPT beats diffusion🔥] [scaling laws in visual generation📈] Official impl. of "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction". An *ultra-simple, user-friendly yet state-of-the-art* codebase for autoregressive image generation!
Language:Jupyter Notebook8.5k 100 161543
FoundationVision/ByteTrack
[ECCV 2022] ByteTrack: Multi-Object Tracking by Associating Every Detection Box
Language:Python5.8k 43 3911.1k
FoundationVision/LlamaGen
Autoregressive Model Beats Diffusion: 🦙 Llama for Scalable Image Generation
Language:Python1.9k 23 8789
FoundationVision/Infinity
[CVPR 2025 Oral]Infinity ∞ : Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
Language:Python1.5k 24 11981
FoundationVision/GLEE
[CVPR2024 Highlight]GLEE: General Object Foundation Model for Images and Videos at Scale
Language:Python1.2k 32 5474
FoundationVision/Waver
Industry-level video foundation model for unified Text-to-Video (T2V) and Image-to-Video (I2V) generation.
701 28 567
FoundationVision/Liquid
(Accepted by IJCV) Liquid: Language Models are Scalable and Unified Multi-modal Generators
Language:Python626 19 2333
FoundationVision/VNext
Next-generation Video instance recognition framework on top of Detectron2 which supports InstMove (CVPR 2023), SeqFormer(ECCV Oral), and IDOL(ECCV Oral))
Language:Python616 16 7055
FoundationVision/Groma
[ECCV2024] Grounded Multimodal Large Language Model with Localized Visual Tokenization
Language:Python578 26 4644
FoundationVision/FlashVideo
[AAAI-2026]FlashVideo: Flowing Fidelity to Detail for Efficient High-Resolution Video Generation
Language:Python449 11 2224
FoundationVision/UniTok
[NeurIPS 2025 Spotlight] A Unified Tokenizer for Visual Generation and Understanding
Language:Python441 8 2410
FoundationVision/OmniTokenizer
[NeurIPS 2024]OmniTokenizer: one model and one weight for image-video joint tokenization.
Language:Python316 5 218
FoundationVision/UniRef
[ICCV2023] Segment Every Reference Object in Spatial and Temporal Spaces
Language:Python236 12 815
FoundationVision/InfinityStar
[NeurIPS 2025 Oral]Infinity⭐️: Uniﬁed Spacetime AutoRegressive Modeling for Visual Generation
Language:Python2016
FoundationVision/GenerateU
[CVPR2024] Generative Region-Language Pretraining for Open-Ended Object Detection
Language:Python184 7 188
FoundationVision/vaex
🔥stable, simple, state-of-the-art VQVAE toolkit & cookbook
Language:Python102 2 58
FoundationVision/BitVAE
official training and inference code of bitwise tokenizer
Language:Python51 2 32
FoundationVision/.github
0 2 00
FoundationVision/flashvideo-page
Language:HTML
FoundationVision/infinity.project
Language:HTML

FoundationVision

Pinned Repositories

ByteTrack

FlashVideo

GLEE

Groma

Infinity

Liquid

LlamaGen

VAR

VNext

Waver

FoundationVision's Repositories

FoundationVision/VAR

FoundationVision/ByteTrack

FoundationVision/LlamaGen

FoundationVision/Infinity

FoundationVision/GLEE

FoundationVision/Waver

FoundationVision/Liquid

FoundationVision/VNext

FoundationVision/Groma

FoundationVision/FlashVideo

FoundationVision/UniTok

FoundationVision/OmniTokenizer

FoundationVision/UniRef

FoundationVision/InfinityStar

FoundationVision/GenerateU

FoundationVision/vaex

FoundationVision/BitVAE

FoundationVision/.github

FoundationVision/flashvideo-page

FoundationVision/infinity.project