Summer-Summer

Machine Learning System & Software-hardware Co-design

University of SydneySydney NSW, Australia

Pinned Repositories

flash-llm
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity
Language:Cuda164 5 513
ALCFBeginnersGuide
Language:Cuda0 0 00
bitsandbytes
8-bit CUDA functions for PyTorch
Language:Python0 0 00
ComputerArchitectureLab
This repository is used to release the Labs of Computer Architecture Course from USTC
Language:Verilog35 4 214
cutlass-kernels
Language:Cuda00
DeepSpeed
DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.
Language:Python00
flash-llm
Language:Cuda0 0 00
llm-awq
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
Language:Python0 0 00
README
README文件语法解读，即Github Flavored Markdown语法介绍
6 0 02
fp6_llm
An efficient GPU support for LLM inference with x-bit quantization (e.g. FP6,FP5).
Language:Cuda171 5 914

Summer-Summer's Repositories

Summer-Summer/ComputerArchitectureLab
This repository is used to release the Labs of Computer Architecture Course from USTC
Language:Verilog35 4 214
Summer-Summer/README
README文件语法解读，即Github Flavored Markdown语法介绍
6 0 02
Summer-Summer/ALCFBeginnersGuide
Language:Cuda0 0 00
Summer-Summer/bitsandbytes
8-bit CUDA functions for PyTorch
Language:Python0 0 00
Summer-Summer/cutlass-kernels
Language:Cuda00
Summer-Summer/DeepSpeed
DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.
Language:Python00
Summer-Summer/flash-llm
Language:Cuda0 0 00
Summer-Summer/llm-awq
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
Language:Python0 0 00
Summer-Summer/Master-s-Thesis
Language:TeX0 1 00
Summer-Summer/nersc-roofline
Language:C++0 0 00
Summer-Summer/SparTA
Language:Python0 0 00
Summer-Summer/sputnik
A library of GPU kernels for sparse matrix operations.
Language:C++0 0 00
Summer-Summer/vectorSparse
Language:Cuda0 0 00
Summer-Summer/quant-matmul
Language:C++0 0
Summer-Summer/TensorRT-LLM
TensorRT-LLM provides users with an easy-to-use Python API to define Large Language Models (LLMs) and build TensorRT engines that contain state-of-the-art optimizations to perform inference efficiently on NVIDIA GPUs. TensorRT-LLM also contains components to create Python and C++ runtimes that execute those TensorRT engines.
Language:C++0 0

Summer-Summer

Pinned Repositories

flash-llm

ALCFBeginnersGuide

bitsandbytes

ComputerArchitectureLab

cutlass-kernels

DeepSpeed

flash-llm

llm-awq

README

fp6_llm

Summer-Summer's Repositories

Summer-Summer/ComputerArchitectureLab

Summer-Summer/README

Summer-Summer/ALCFBeginnersGuide

Summer-Summer/bitsandbytes

Summer-Summer/cutlass-kernels

Summer-Summer/DeepSpeed

Summer-Summer/flash-llm

Summer-Summer/llm-awq

Summer-Summer/Master-s-Thesis

Summer-Summer/nersc-roofline

Summer-Summer/SparTA

Summer-Summer/sputnik

Summer-Summer/vectorSparse

Summer-Summer/quant-matmul

Summer-Summer/TensorRT-LLM