jxcomeon

Pinned Repositories

transformer-deploy
Efficient, scalable and enterprise-grade CPU/GPU inference server for 🤗 Hugging Face transformer models 🚀
Language:Python1.7k 27 121151
DeepSpeed
DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.
Language:Python00
DeepSpeedL
Language:Python10
FasterTransformer
Transformer related optimization, including BERT, GPT
Language:C++5.9k 63 625896
TensorRT
NVIDIA® TensorRT™ is an SDK for high-performance deep learning inference on NVIDIA GPUs. This repository contains the open source components of TensorRT.
Language:C++11k 156 3.8k2.1k
llama.onnx
LLaMa/RWKV onnx models, quantization and testcase
Language:Python356 13 2031

jxcomeon's Repositories

jxcomeon/DeepSpeedL
Language:Python10
jxcomeon/DeepSpeed
DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.
Language:Python00