如何在实际应用中提升模型效率？

Question

Opened this issue a month ago · 3 comments

Notice: In order to resolve issues more efficiently, please raise issue following the template.
（注意：为了更加高效率解决您遇到的问题，请按照模板提问，补充细节）

❓ Questions and Help

在实际应用中要怎样提升在线模型（Streaming）的效率呢？
语言模型可以通过batch size进行批量推理，来提升推理效率；可以使用多实例来应对推理请求并发的情况；可以使用TensorRT来优化推理速度。
请问对于FunASR在线模型，上面哪些措施是可行的，有没有更好的推荐？

+1

Answer 1 · 2024-12-12T08:09:13.000Z

batch_size在这个funasr_wss_client_queue.py就是chunk_size，直接调就行

Answer 2 · 2024-12-12T08:36:32.000Z

batch_size在这个funasr_wss_client_queue.py就是chunk_size，直接调就行

为什么？chunk-size不是[0,10,5]吗？第一维度是batch_size?