请问这里的量化是说每个输入通道一个scale吗?
iamhankai opened this issue · 3 comments
YanjingLi0202 commented
是的,我们是input channel-wise的方法。
iamhankai commented
那linear层怎么用int矩阵乘法做加速呢,是不是还要还原成fp32去做矩阵乘法?
YanjingLi0202 commented
linear层的加速应该跟conv层类似需要dequantize成fp32,具体实际部署需要使用部署框架。