tpoisonooo/how-to-optimize-gemm

cuda代码中错误

liuxubit opened this issue · 2 comments

cuda代码中,MMult_cuda_7.cu中30行,b_ptr += 64 * k,应该是b_ptr += 64 * n,因为是方阵,所以结果对上了

直接发 PR 吧。

done.