SqueezeAILab/KVQuant

[NeurIPS 2024] KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

Python

Readme
17Issues
325Stargazers
12Watchers

Watchers

akshatsh49
amirgholami
BAIR, UC Berkeley
AnastasiaaSenina
eemailme
FanhaiLu1
Google
fuochii
geronimi73
liyimeng
Stockholm
timothyklim
XxxAtlantis
北京，中国
xyyue
younesbelkada
@huggingface
zucchini-nlp
Hugging Face

Contact site admin: Geeks.