关于int量化底层支持

Question

XA23i opened this issue a year ago · 0 comments

非常棒的工作，我比较好奇，纯int量化的优势在于速度，但是好像没有底层kernel的支持，还是以全精度（TVM）的方式去计算的，这样int量化的实际价值没有发挥出来，看论文中的数据实际latency没有较FasterTransformer提升太多。