can you support static per-token activation quantization?

Question

can you support static per-token activation quantization?

geqian-9192 opened this issue 8 months ago · 1 comments

can you support static per-token activation quantization, as dynamic quantization is inefficient on hardware?

Answer 1 · 2024-10-01T01:20:18.000Z

Hi,

Thanks for your interests in QServe. We fused quantization ops into mem-bounded ops such as layernorm, silu, etc. Thus, the activation quantization overhead is minimal and negligible. Please refer to our paper for more details.