how-to-optimize-gemm

RowMajor MatMul optimization

backend	armv7-a	armv8-a	cuda	vulkan	x86
support	✔️	✔️	✔️	✔️	✅

一、ARM Cortex-A

OLD    := MMult_4x4_8
NEW   := MMult_4x4_8

$ cd armv8 && make run

此项目基于 blis-lab 文档和项目实现，与原作区别在于：

原作为列主序x86 SSE代码。考虑到移动端卷积优化一般使用arm架构芯片，本项目是基于arm64版行主序gemm优化；
原作没有做 k 维拆解，也没有太细致的分块，离 CPU 极限差距不小。本项目目前最新的MMult_4x4_17.c最高可达 9.9gflops，相当于 CPU 峰值的 70%；
本项目没有处理边界问题，只考虑 MNK 均为 4 的倍数的情况；sub_kernel也只写了最简单的一种汇编。实用需要简单调整一下；
绘图方面扔掉了冗长的 octave（arm linux 配置一次环境太麻烦），改用 python plot。

ARM 系列优化中文教程在

自知乎 GEMM 入门发布后，有不少同学问如何写一个 int8 gemm。俺写好了~~~

chgemm 是个可用的 int8 gemm 库。相对于本教程中的代码，区别在于:

chgemm 已合入ncnn INT8 卷积实现。

OLD    := MMult_cuda_5
NEW   := MMult_cuda_5

$ cd cuda
$ make
$ ./test_MMult.x
...

$ python3 plot.py output_MMult_cuBLAS_1.m output_MMult_cuda_12.m

build 依赖 kompute 这层 API 包装，见 vulkan build 文档