YanjingLi0202/Q-ViT

请问这里的量化是说每个输入通道一个scale吗?

iamhankai opened this issue · 3 comments

self.alpha = Parameter(torch.Tensor(in_features))

是的,我们是input channel-wise的方法。

那linear层怎么用int矩阵乘法做加速呢,是不是还要还原成fp32去做矩阵乘法?

linear层的加速应该跟conv层类似需要dequantize成fp32,具体实际部署需要使用部署框架。