minitu

Senior Deep Learning Architect at NVIDIA

@NVIDIASanta Clara, California, United States

Pinned Repositories

activity_trace_async
Language:C++20
agg
Testbed for CUDA kernel aggregation
Language:C++1 2 01
amr
Integration of GPU solvers in Charm++ AMR MiniApp
Language:Cuda1 1 00
baseenv
A fork of Bill Gropp's baseenv (http://wgropp.cs.illinois.edu/projects/software/baseenv.htm)
Language:C1 1 00
charm
The Charm++ parallel programming system. Visit https://charmplusplus.org/ for more information.
Language:C++1 0 00
charming
GPU-resident runtime system based on Charm++ principles
Language:Cuda10
starter-academic
Language:Jupyter Notebook2 1 02
apex
A PyTorch Extension: Tools for easy mixed precision and distributed training in Pytorch
Language:Python8.1k 102 1.2k1.3k
NeMo
A scalable generative AI framework built for researchers and developers working on Large Language Models, Multimodal, and Speech AI (Automatic Speech Recognition and Text-to-Speech)
Language:Python10.6k 195 2.1k2.2k
TransformerEngine
A library for accelerating Transformer models on NVIDIA GPUs, including using 8-bit floating point (FP8) precision on Hopper and Ada GPUs, to provide better performance with lower memory utilization in both training and inference.
Language:Python1.6k 34 245250

minitu's Repositories

minitu/starter-academic
Language:Jupyter Notebook2 1 02
minitu/baseenv
A fork of Bill Gropp's baseenv (http://wgropp.cs.illinois.edu/projects/software/baseenv.htm)
Language:C1 1 00
minitu/charm
The Charm++ parallel programming system. Visit https://charmplusplus.org/ for more information.
Language:C++1 0 00
minitu/charming
GPU-resident runtime system based on Charm++ principles
Language:Cuda10
minitu/hpm
A Heterogeneous Performance Modeling Framework (GPU + MPI)
1 1 00
minitu/apex
A PyTorch Extension: Tools for easy mixed precision and distributed training in Pytorch
Language:Python0 0 00
minitu/buggy
A buddy allocator for GPU memory
Language:C++0 1 00
minitu/changa
Mirror of UIUC/PPL version of ChaNGa
Language:C++0 0 00
minitu/codes
The Co-Design of Exascale Storage Architectures (CODES) simulation framework builds upon the ROSS parallel discrete event simulation engine to provide high-performance simulation utilities and models for building scalable distributed systems simulations
Language:C0 0 00
minitu/dlrm
An implementation of a deep learning recommendation model (DLRM)
Language:Python0 0
minitu/dumpi-cortex
A fork of https://xgitlab.cels.anl.gov/mdorier/dumpi-cortex
Language:C++1 0
minitu/gerrit2github
Language:Python0 0
minitu/gpu
Contains pieces of GPU related research that are too small to warrant a separate repository.
Language:C0 0
minitu/gpuroofperf-toolkit
A GPU performance prediction toolkit for CUDA programs
Language:Cuda0 0
minitu/jacobi2d
Language:Cuda2 0
minitu/kokkos-tutorials
Tutorials for the Kokkos C++ Performance Portability Programming EcoSystem
Language:C++0 0
minitu/Megatron-LM
Ongoing research training transformer models at scale
Language:Python
minitu/miniFE
MiniFE Finite Element Mini-Application
Language:C++1 0
minitu/miniMD
MiniMD Molecular Dynamics Mini-App
Language:C++0 0
minitu/mpitest
Language:Python1 0
minitu/multi-gpu-programming-models
Examples demonstrating available options to program multiple GPUs in a single node or a cluster
Language:Cuda0 0
minitu/NeMo
NeMo: a toolkit for conversational AI
Language:Python
minitu/ompi
Open MPI main development repository
Language:C0 0
minitu/pytorch
Tensors and Dynamic neural networks in Python with strong GPU acceleration
Language:C++1 0
minitu/sst-dumpi
SST DUMPI Trace Library
Language:C0 0
minitu/sw4lite
Testing numerical kernels in SW4
Language:C0 0
minitu/TraceR
Trace Replay and Network Simulation Framework
Language:C0 0
minitu/training
Reference implementations of MLPerf™ training benchmarks
Language:Python
minitu/TransformerEngine
A library for accelerating Transformer models on NVIDIA GPUs, including using 8-bit floating point (FP8) precision on Hopper and Ada GPUs, to provide better performance with lower memory utilization in both training and inference.
Language:Python
minitu/triton
Development repository for the Triton language and compiler
1