/cuda

cuda课堂作业

Primary LanguageCuda

cuda

cuda课堂作业:

基于神经网络的手写数字识别的CUDA优化

优化方案 训练时间 总体正确率 相对CPU加速比
CPU串行 80.791s 0.9416 1.0
优化方案1 44.715s 0.9430 1.986
优化方案2 12.506s 0.9432 6.460
优化方案3 10.560s 0.9432 7.651
优化方案4 6.509s 0.9431 12.412
优化方案5 5.672s 0.9405 14.244

从表可以看出,最终在GPU上优化结果比cpu串行程序快了14倍左右。在进行cuda优化时,考虑到大部分时间都是在进行cpu与gpu间的数据交互,我们要减小这种数据交互,以此来减小时间开销;同时要充分利用GPU的计算资源,增大block的数目,增加每个SM常驻线程快的数目来最大化并行性,提高运算速度。