Foundation Model Inference

Inference Systems for Foundation Models

Pinned Repositories

DejaVu
Language:Python335 6 3543
FlexLLMGen
Running large language models on a single GPU for throughput-oriented scenarios.
Language:Python9.4k 110 83584
H2O
[NeurIPS'23] H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models.
Language:Python473 5 4265

Foundation Model Inference's Repositories

FMInference/FlexLLMGen
Running large language models on a single GPU for throughput-oriented scenarios.
Language:Python9.4k 110 83584
FMInference/H2O
[NeurIPS'23] H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models.
Language:Python473 5 4265
FMInference/DejaVu
Language:Python335 6 3543