MARD1NO

Paddle Sucks | OFF THE HOOK

SiliconFlowNeverland

Pinned Repositories

Awesome-GPU
Awesome resources for GPUs
2 0 01
cmake-examples
Useful CMake Examples
Language:CMake0 0 00
CUDA-PPT
55 1 09
cute-gemm
Language:C++1 0 00
LearnDLSysCourse
Language:Python12 1 01
Learning_CUDA
Language:Cuda23 3 09
MadMario-OneFlow
Language:Python3 1 00
oneflow
OneFlow is a performance-centered and open-source deep learning framework.
Language:C++0 0 00
paper_reading
Language:Jupyter Notebook6 1 02
Tools
Collect some useful code.
Language:C++8 1 00

MARD1NO's Repositories

MARD1NO/CUDA-PPT
55 1 09
MARD1NO/OneshotAllreduceExample
Language:Cuda1 1 02
MARD1NO/open-resume
OpenResume is a powerful open-source resume builder and resume parser. https://open-resume.com/
Language:TypeScript1 0 0
MARD1NO/tutorial-multi-gpu
Efficient Distributed GPU Programming for Exascale, an SC/ISC Tutorial
Language:Cuda1 0 0
MARD1NO/cutlass_master
CUDA Templates for Linear Algebra Subroutines
Language:C++0 0 01
MARD1NO/DeepSpeed
DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.
Language:Python0 0 00
MARD1NO/Awesome-LLM-System-Papers
0 0
MARD1NO/ByteTransformer
optimized BERT transformer inference on NVIDIA GPU. https://arxiv.org/abs/2210.03052
Language:C++0 0
MARD1NO/CUDALibrarySamples
CUDA Library Samples
Language:Cuda0 0
MARD1NO/docs
Documentations for PaddlePaddle
Language:Python0 0
MARD1NO/dynolog
Dynolog is a telemetry daemon for performance monitoring and tracing. It exports metrics from different components in the system like the linux kernel, CPU, disks, Intel PT, GPUs etc. Dynolog also integrates with pytorch and can trigger traces for distributed training applications.
Language:C++0 0
MARD1NO/EdgeGPT
Reverse engineered API of Microsoft's Bing Chat AI
Language:Python0 0
MARD1NO/FlexGen
Running large language models like OPT-175B/GPT-3 on a single GPU. Up to 100x faster than other offloading systems.
Language:Python0 0
MARD1NO/Fuser
A Fusion Code Generator for NVIDIA GPUs (commonly known as "nvFuser")
Language:C++0 0
MARD1NO/GPTQ-triton
GPTQ inference Triton kernel
Language:Jupyter Notebook0 0
MARD1NO/InferLLM
a lightweight LLM model inference framework
Language:C++0 0
MARD1NO/INT8-Flash-Attention-FMHA-Quantization
Language:Python0 0
MARD1NO/kernl
Kernl lets you run PyTorch transformer models several times faster on GPU with a single line of code, and is designed to be easily hackable.
Language:Jupyter Notebook0 0
MARD1NO/LLMsPracticalGuide
0 0
MARD1NO/LLMSurvey
A collection of papers and resources related to Large Language Models.
0 0
MARD1NO/nanoPyC
Language:Python0 0
MARD1NO/nccl-tests
NCCL Tests
Language:Cuda0 0
MARD1NO/ppl.kernel.cuda
Language:C0 0
MARD1NO/PTX-ISA
CUDA PTX-ISA Document 中文翻译版
0 0
MARD1NO/RedPajama-Data
The RedPajama-Data repository contains code for preparing large datasets for training large language models.
Language:Python0 0
MARD1NO/taichi-nerfs
Implementations of NeRF variants based on Taichi + PyTorch
Language:Python0 0
MARD1NO/tiktoken
Language:Python0 0
MARD1NO/triton
Development repository for the Triton language and compiler
Language:C++0 0
MARD1NO/typst
A new markup-based typesetting system that is powerful and easy to learn.
Language:Rust0 0
MARD1NO/vllm
A high-throughput and memory-efficient inference and serving engine for LLMs
Language:Python0 0