shouxieai/tensorRT_Pro

cudaMemcpy耗时较大,对于大图来说,请问有优化方法吗?

MrWwei opened this issue · 1 comments

我使用的是yolo gpuptr版本,批量数据在添加到images_gpu时,host与device拷贝时间较长,大佬能否提供一下优化思路?

hopef commented

你可以使用pinned memory,也就是cudaMallocHost来分配host的内存,可以优化比较明显