请问 QPS能达到多少?
Closed this issue · 3 comments
limengyang1992 commented
王博您好,想请问下 测试结果是单条测试还是压测的结果哈
BeyonderXX commented
你好!
测试结果是单条测试,没有进行压测。(因为整个实验是在 mbp-2019 上进行的,所以压测得出的性能也没啥意义)
BERT base 在10线程下 单条预测 100ms (服务器会更快,而且可以用GPU做加速),某大型互联网公司推理引擎(一般有专门的组负责优化,人力成本高)在6层BERT(参数量约BERT base的 1/4 )上,CPU服务器单条预测耗时 30ms 。可见,tf serving 与之性能相当。
综上, tensorflow serving 速度快、使用成本低、官方支持,可以说是服务器部署的最佳方案。
limengyang1992 commented
感谢王博的解答,还想请教下,java作为客户端的话,怎么使用wordpiece ,因为serving的输入只能是数字
BeyonderXX commented
建议网上找下别人的JAVA实现,
不行就自己重写下逻辑,很容易的