guocuimi

VectorchBellevue, WA

Pinned Repositories

attention_learning
Language:Python1 2 01
cutlass
CUDA Templates for Linear Algebra Subroutines
Language:C++00
flash_attention_inference
Performance of the C++ interface of flash attention, flash attention v2 and self quantized decoding attention in large language model (LLM) inference scenarios.
Language:C++0 0 00
flashinfer
FlashInfer: Kernel Library for LLM Serving
Language:Cuda0 0 00
LookaheadDecoding
Language:Python0 0 00
MatmulTutorial
A Easy-to-understand TensorOp Matmul Tutorial
Language:C++0 0 00
minitf
Simplified version of Tensorflow for learning purposes.
Language:Jupyter Notebook3 2 10
ScaleLLM
A high-performance inference system for large language models, designed for production environments.
Language:C++1 0 00
LLMBench
A library for validating and benchmarking LLMs inference.
Language:Python4 2 11
ScaleLLM
A high-performance inference system for large language models, designed for production environments.
Language:C++397 17 7530

guocuimi/minitf
Simplified version of Tensorflow for learning purposes.
Language:Jupyter Notebook3 2 10
guocuimi/attention_learning
Language:Python1 2 01
guocuimi/ScaleLLM
A high-performance inference system for large language models, designed for production environments.
Language:C++1 0 00
guocuimi/cutlass
CUDA Templates for Linear Algebra Subroutines
Language:C++00
guocuimi/flash_attention_inference
Performance of the C++ interface of flash attention, flash attention v2 and self quantized decoding attention in large language model (LLM) inference scenarios.
Language:C++0 0 00
guocuimi/flashinfer
FlashInfer: Kernel Library for LLM Serving
Language:Cuda0 0 00
guocuimi/LookaheadDecoding
Language:Python0 0 00
guocuimi/MatmulTutorial
A Easy-to-understand TensorOp Matmul Tutorial
Language:C++0 0 00