Infini-AI-Lab

Pinned Repositories

lm-evaluation-harness
A framework for few-shot evaluation of language models.
Language:Python0 0 01
MagicDec
Breaking Throughput-Latency Trade-off for Long Sequences with Speculative Decoding
Language:JavaScript70 4 34
MagicDec-part1
Speculative decoding for high-throughput long-context inference
Language:JavaScript0 1 00
MagicDec-part2
MagicDec: Breaking the Latency-Throughput Tradeoff for Long Contexts with Speculative Decoding
Language:JavaScript0 1 00
MagicPIG
MagicPIG: LSH Sampling for Efficient LLM Generation
Language:Python431
Sequoia
scalable and robust tree-based speculative decoding algorithm
Language:Python313 5 1233
Sequoia-Page
Language:JavaScript0 0 00
Sirius
Sirius, an efficient correction mechanism, which significantly boosts Contextual Sparsity models on reasoning tasks while maintaining its efficiency gain.
Language:Python16 1 04
TriForce
[COLM 2024] TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding
Language:Python228 1 912

Infini-AI-Lab's Repositories

Infini-AI-Lab/Sequoia
scalable and robust tree-based speculative decoding algorithm
Language:Python313 5 1233
Infini-AI-Lab/TriForce
[COLM 2024] TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding
Language:Python228 1 912
Infini-AI-Lab/MagicDec
Breaking Throughput-Latency Trade-off for Long Sequences with Speculative Decoding
Language:JavaScript70 4 34
Infini-AI-Lab/MagicPIG
MagicPIG: LSH Sampling for Efficient LLM Generation
Language:Python431
Infini-AI-Lab/Sirius
Sirius, an efficient correction mechanism, which significantly boosts Contextual Sparsity models on reasoning tasks while maintaining its efficiency gain.
Language:Python16 1 04
Infini-AI-Lab/lm-evaluation-harness
A framework for few-shot evaluation of language models.
Language:Python0 0 01
Infini-AI-Lab/MagicDec-part1
Speculative decoding for high-throughput long-context inference
Language:JavaScript0 1 00
Infini-AI-Lab/MagicDec-part2
MagicDec: Breaking the Latency-Throughput Tradeoff for Long Contexts with Speculative Decoding
Language:JavaScript0 1 00
Infini-AI-Lab/Sequoia-Page
Language:JavaScript0 0 00