Question about your kernel

Question

Opened this issue 3 months ago · 1 comments

请问您实现的算子和Powerinfer以及dejavu的区别是什么？后两者都实现了稀疏算子，并且也能取得实际的提速（2--4倍，取决于稀疏程度）。

另外，您在论文中使用的powerinfer测试的设备信息是什么？有没有开启CPU offloading呢？如果完全在GPU上的情况下，能够获得论文中的3--4倍的推理速度提升吗？

感谢您的回复~

Answer 1 · 2024-07-12T13:14:33.000Z

算子和 PowerInfer 的区别正如论文中陈述，前者是直接替换 FFN 层运算，是直接且精确的加速；而后者需要训练 predictor 来预测激活分布，预测准确性会影响推理的准确性，是一种潜在有损的加速，当然 PowerInfer 能取得的加速会更显著，得益于他做的很多其他层面的优化和封装。

测试的设备是一台同时具有 CPU 和 GPU 的机器，PowerInfer 的原理就是要同时使用这两种不同的设备的（可以参考其原论文），即 hot neuron 在 GPU 上计算，cold neuron 在 CPU 上计算，完全放在 GPU 上的情况，原论文和我们都没有测试过。