请教GPU负载均衡的问题

Question

mystery3021 opened this issue 7 months ago · 2 comments

请教个问题，我的服务器上有3张nvidia rtx4090卡，每张卡24G的GPU内存，每张卡的内存足够加载得了7B的模型用来推理，我怎么让这个3张卡能有对外提供服务负载均衡的能力？

Answer 1 · 2024-06-03T03:02:49.000Z

目前本项目的api服务没有自带的负载均衡, 只能你分别在三张卡上, 起三个服务, 用不同的端口, 然后再做一个反向代理, 调用/switch-model载入模型时, strategy参数可以使用cuda:0 fp16, cuda:1 fp16, cuda:2 fp16分别在三张卡上载入

Answer 2 · 2024-06-03T03:30:54.000Z

目前本项目的api服务没有自带的负载均衡, 只能你分别在三张卡上, 起三个服务, 用不同的端口, 然后再做一个反向代理, 调用/switch-model载入模型时, strategy参数可以使用cuda:0 fp16, cuda:1 fp16, cuda:2 fp16分别在三张卡上载入

好的，多谢，我使用nginx反向代理一下。