XA23i opened this issue a year ago · 0 comments
非常棒的工作,我比较好奇,纯int量化的优势在于速度,但是好像没有底层kernel的支持,还是以全精度(TVM)的方式去计算的,这样int量化的实际价值没有发挥出来,看论文中的数据实际latency没有较FasterTransformer提升太多。