速度对比
yohnyang opened this issue · 1 comments
yohnyang commented
你好,这个速度比LoFTR真的快2.5倍吗? 我设置的参数为 opt fp16 时间在70ms左右,LoFTR在180ms左右,GTX2080super+cuda117
请问我还有可以调参优化的地方吗?
wyf2020 commented
你好,这个结果是符合预期的(180ms/70ms=2.57x),继续调参优化可以开启Flash Attention (cfg.LOFTR.COARSE.NO_FLASH=False),以及如果对latency要求不高并且输入图像分辨率较低(分辨率通过forward期间GPU利用率是否接近100%判断),可以调参batch size=2^N (N>=1),获得成倍throughput rate的提升。