pkunlp-icler/FastV

paper中的优化耗时问题

Closed this issue · 1 comments

Hi,请问下这里的 Latency 是 time-to-first-token的时间,还是平均 token的耗时呢?
image

您好准确说这里的example latency和time to first output token的时间是一样的。