这是一个性能请教的问题，无关代码bug

Question

这是一个性能请教的问题，无关代码bug

Opened this issue 2 months ago · 3 comments

大佬们好，我是一个刚开始学习ort的新手，我有一个问题
在所有onnx的头文件中都有个_batchSize 属性，我发现这个初始化的_batch_size属性会极大的影响性能，下面以yolov8_pose_onnx为例
我在一次程序运行中测试了1，2，4，16，32，64，128不同批次下的推理性能，即我修改了OnnxBatchDetect函数，在进入OnnxBatchDetect函数后我主动修改_batchSize 为srcImgs的size，然后仅测试_OrtSession->Run的运行时间，我发现默认设置的_batchSize值总是性能最优的（平均下来单帧推理时间最短）
即如果我在yolov8_pose_onnx.h中设置_batchSize=1，那么测试后就发现批次为1的性能最好（远远好于其他批次）；
如果我在yolov8_pose_onnx.h中设置_batchSize=64，那么测试后就发现批次为64的性能最好（也是远远好于其他批次）；

这是为什么呢？

Answer 1 · 2024-11-16T15:12:14.000Z

确认下你导出的onnx模型是否为dynamic的，使用https://netron.app 可以打开onnx文件，看下输出这边是具体的数字还是bs,3,h,w这种变量。该参数只对dynamic模型起作用，如果你本身导出的是静态的模型，这个参数不会起作用。
关于你说的这个batch size的问题，这个跟你的资源利用相关，牵扯到硬件相关，这个每个人都不一样。简单一句话概括就是木桶理论，在batch设置到木桶最短板的极限的时候，这个时候是性能利用最高的地方。另外，也不是说一定会最佳，假设来说一批次图片一共20张，你设置batch size为16，那个剩下的4张需要额外补齐12张到16才可以推理，这就意味着平白耗时，这种还不如batch 为4，然后跑5轮对资源的利用合算。其他的情况类似。

Answer 2 · 2024-11-17T02:38:56.000Z

1.我的onnx模型是动态的，input的tensor格式为[batch,3,height,width]
2.我是加载一张图片，然后将其复制为对应批次的数量，[1,2,4,8,16,32,64,128]，我预测的性能图像应该是呈现一个抛物线，就是在某一个批次会呈现出最佳推理性能，但是我发现设置不同的初始化_batchsize值，这个最佳性能会波动，我初始化为1，则是1最优，初始化2则是2为最优......初始化为16则是16最优.....，总之就是初始化哪个批次值，哪个批次值是最优的，我感觉这是很奇怪的
3.我没有填充空图像，因为我是直接调用onnxBatchDetect函数来测试不同图像的，在进入函数后就设置_batchSize=srcImgs.size(); _inputTensorShape[0] = _batchSize;

我的环境是ubuntu20，ort 1.16.3 gpu

Answer 3 · 2024-11-19T08:00:50.000Z

事实上，_batchSize这个参数在读取模型的时候就已经确认好了，所以你在检测的阶段去修改这个参数意义不大了