Jermmy/pytorch-quantization-demo

量化输出的模型更大

Ysnower opened this issue · 1 comments

执行train.py生成的mnist_cnnbn.pt有105.7kb 执行quantization_aware_training.py得到的mnist_cnnbn_qat.pt有121.6kb,请问大佬正常吗
量化应该是能减小模型提升推理速度

正常的,我的代码都是用float存的整数,量化后还要存个各种量化参数,所以体积是更大的,而且推理速度应该会更慢。
工业界的量化框架在转芯片模型的时候会用int存整数,体积会变小,推理速度也更快。