Bruce-Lee-LY/cuda_hgemm

Several optimization methods of half-precision general matrix multiplication (HGEMM) using tensor core with WMMA API and MMA PTX instruction.

CudaMIT

Issues

enable_check 1 结果不对
#12 opened 2 months ago by cokeshao
2
关于permute实现方式
#8 opened 8 months ago by feiyuvl
2
请教一个 `wmma_async_stage2.cu` 中的代码细节
#9 opened 5 months ago by luliyucoordinate
0
为什么B矩阵要transpose？
#10 opened 5 months ago by luliyucoordinate
0
wmma下A矩阵采用padding 8好像没有完全解决bank conflict问题？
#11 opened 5 months ago by luliyucoordinate
0
关于A/B阵的Layout
#7 opened 9 months ago by feiyuvl
1
Question about the tiling size
#6 opened 10 months ago by macto94
2
Cooperative Async Copies
#5 opened 10 months ago by FabianSchuetze
2
咨询：Share Mem bank Confict.
#4 opened 10 months ago by matrix97317
1
Change to block of 128 by 256
#3 opened a year ago by yupei-ms
3
#define CHUNK_K 2 // 32 / WMMA_K
#2 opened a year ago by lk137095576
1
mma_naive结果不正确
#1 opened a year ago by FdyCN
1