ZhangYunchenY

Pinned Repositories

llmc
[EMNLP 2024 Industry Track] This is the official PyTorch implementation of "LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit".
Language:Python341 9 3537
MQBench
Model Quantization Benchmark
Language:Shell769 14 199140
awesome-lm-system
Summary of system papers/frameworks/codes/tools on training or serving large model
00
DeepSpeedExamples
Example models using DeepSpeed
Language:Python00
fairseq
Facebook AI Research Sequence-to-Sequence Toolkit written in Python.
Language:Python00
FasterTransformer
Transformer related optimization, including BERT, GPT
Language:C++00
llmc
llmc is an efficient LLM compression tool with various advanced compression methods, supporting multiple inference backends.
Language:Python00
Model-Compression-Research-Package
A library for researching neural networks compression and acceleration methods.
Language:Python0 0 00
MQBench
Model Quantization Benchmark
Language:Shell0 0 00
TensorRT
TensorRT is a C++ library for high performance inference on NVIDIA GPUs and deep learning accelerators.
Language:C++00

ZhangYunchenY's Repositories

ZhangYunchenY/awesome-lm-system
Summary of system papers/frameworks/codes/tools on training or serving large model
00
ZhangYunchenY/DeepSpeedExamples
Example models using DeepSpeed
Language:Python00
ZhangYunchenY/fairseq
Facebook AI Research Sequence-to-Sequence Toolkit written in Python.
Language:Python00
ZhangYunchenY/FasterTransformer
Transformer related optimization, including BERT, GPT
Language:C++00
ZhangYunchenY/llmc
llmc is an efficient LLM compression tool with various advanced compression methods, supporting multiple inference backends.
Language:Python00
ZhangYunchenY/Model-Compression-Research-Package
A library for researching neural networks compression and acceleration methods.
Language:Python0 0 00
ZhangYunchenY/MQBench
Model Quantization Benchmark
Language:Shell0 0 00
ZhangYunchenY/TensorRT
TensorRT is a C++ library for high performance inference on NVIDIA GPUs and deep learning accelerators.
Language:C++00