hyx1999

China,Beijing

Pinned Repositories

GeDe
Language:Python0 1 00
hyx1999.github.io
Language:HTML0 1 00
ktransformers
A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations
Language:Python0 0 00
Lors
Language:Python0 1 00
SAM-Decoding
Official Implementation of SAM-Decoding: Speculative Decoding via Suffix Automaton
Language:Python16 2 11
ktransformers
A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations
Language:Python821 16 6745
cutlass
CUDA Templates for Linear Algebra Subroutines
Language:C++5.9k 110 1.2k1k
QuaRot
Code for Neurips24 paper: QuaRot, an end-to-end 4-bit inference of large language models.
Language:Python309 11 5426
triton
Development repository for the Triton language and compiler
Language:C++13.9k 198 1.6k1.7k
AQLM
Official Pytorch repository for Extreme Compression of Large Language Models via Additive Quantization https://arxiv.org/pdf/2401.06118.pdf and PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression https://arxiv.org/abs/2405.14852
Language:Python1.2k 19 102182

hyx1999's Repositories

hyx1999/SAM-Decoding
Official Implementation of SAM-Decoding: Speculative Decoding via Suffix Automaton
Language:Python16 2 11
hyx1999/GeDe
Language:Python0 1 00
hyx1999/hyx1999.github.io
Language:HTML0 1 00
hyx1999/ktransformers
A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations
Language:Python0 0 00
hyx1999/Lors
Language:Python0 1 00