Raincleared-Song/sparse_gpu_operator

Question about your kernel

Opened this issue · 1 comments

请问您实现的算子和Powerinfer以及dejavu的区别是什么?后两者都实现了稀疏算子,并且也能取得实际的提速(2--4倍,取决于稀疏程度)。

另外,您在论文中使用的powerinfer测试的设备信息是什么?有没有开启CPU offloading呢?如果完全在GPU上的情况下,能够获得论文中的3--4倍的推理速度提升吗?

感谢您的回复~

算子和 PowerInfer 的区别正如论文中陈述,前者是直接替换 FFN 层运算,是直接且精确的加速;而后者需要训练 predictor 来预测激活分布,预测准确性会影响推理的准确性,是一种潜在有损的加速,当然 PowerInfer 能取得的加速会更显著,得益于他做的很多其他层面的优化和封装。

测试的设备是一台同时具有 CPU 和 GPU 的机器,PowerInfer 的原理就是要同时使用这两种不同的设备的(可以参考其原论文),即 hot neuron 在 GPU 上计算,cold neuron 在 CPU 上计算,完全放在 GPU 上的情况,原论文和我们都没有测试过。