yufenglee

@Microsoft Sunnyvale, CA

Pinned Repositories

onnxruntime
ONNX Runtime: cross-platform, high performance ML inferencing and training accelerator
Language:C++15.1k 250 6.8k3k
bitsandbytes
8-bit CUDA functions for PyTorch
Language:Python0 0 00
cutlass
CUDA Templates for Linear Algebra Subroutines
Language:C++0 0 00
diffusers
🤗 Diffusers: State-of-the-art diffusion models for image and audio generation in PyTorch
Language:Python0 0 00
docker_files
0 1 00
FasterTransformer
Transformer related optimization, including BERT, GPT
Language:C++0 0 00
flash-attention
Fast and memory-efficient exact attention
Language:Python0 0 00
onnx
Open Neural Network Exchange
Language:C++1 0 00

yufenglee's Repositories

yufenglee/onnx
Open Neural Network Exchange
Language:C++1 0 00
yufenglee/bitsandbytes
8-bit CUDA functions for PyTorch
Language:Python0 0 00
yufenglee/cutlass
CUDA Templates for Linear Algebra Subroutines
Language:C++0 0 00
yufenglee/diffusers
🤗 Diffusers: State-of-the-art diffusion models for image and audio generation in PyTorch
Language:Python0 0 00
yufenglee/docker_files
0 1 00
yufenglee/FasterTransformer
Transformer related optimization, including BERT, GPT
Language:C++0 0 00
yufenglee/flash-attention
Fast and memory-efficient exact attention
Language:Python0 0 00
yufenglee/mmperf
MatMul Performance Benchmarks for a Single CPU Core comparing both hand engineered and codegen kernels.
Language:C++0 0 00
yufenglee/onnxruntime
ONNX Runtime: cross-platform, high performance scoring engine for ML models
Language:C++0 0 00
yufenglee/llama
Inference code for LLaMA models
Language:Python0 0
yufenglee/neural-speed
An innovation library for efficient LLM inference via low-bit quantization and sparsity
Language:C++0 0
yufenglee/optimum
🏎️ Accelerate training and inference of 🤗 Transformers with easy to use hardware optimization tools
Language:Python0 0
yufenglee/pytorch
Tensors and Dynamic neural networks in Python with strong GPU acceleration
Language:C++0 0
yufenglee/triton
Development repository for the Triton language and compiler
Language:C++0 0
yufenglee/tutorials
Tutorials for creating and using ONNX models
Language:Jupyter Notebook0 0
yufenglee/vllm
A high-throughput and memory-efficient inference and serving engine for LLMs
Language:Python0 0
yufenglee/whisper
Robust Speech Recognition via Large-Scale Weak Supervision
Language:Python0 0
yufenglee/Windows-Machine-Learning
Samples for Windows ML.
0 0

yufenglee

Pinned Repositories

onnxruntime

bitsandbytes

cutlass

diffusers

docker_files

FasterTransformer

flash-attention

onnx

yufenglee's Repositories

yufenglee/onnx

yufenglee/bitsandbytes

yufenglee/cutlass

yufenglee/diffusers

yufenglee/docker_files

yufenglee/FasterTransformer

yufenglee/flash-attention

yufenglee/mmperf

yufenglee/onnxruntime

yufenglee/llama

yufenglee/neural-speed

yufenglee/optimum

yufenglee/pytorch

yufenglee/triton

yufenglee/tutorials

yufenglee/vllm

yufenglee/whisper

yufenglee/Windows-Machine-Learning