josStorer/RWKV-Runner

请教GPU负载均衡的问题

mystery3021 opened this issue · 2 comments

请教个问题,我的服务器上有3张nvidia rtx4090卡,每张卡24G的GPU内存,每张卡的内存足够加载得了7B的模型用来推理, 我怎么让这个3张卡能有对外提供服务负载均衡的能力?

目前本项目的api服务没有自带的负载均衡, 只能你分别在三张卡上, 起三个服务, 用不同的端口, 然后再做一个反向代理, 调用/switch-model载入模型时, strategy参数可以使用cuda:0 fp16, cuda:1 fp16, cuda:2 fp16分别在三张卡上载入

目前本项目的api服务没有自带的负载均衡, 只能你分别在三张卡上, 起三个服务, 用不同的端口, 然后再做一个反向代理, 调用/switch-model载入模型时, strategy参数可以使用cuda:0 fp16, cuda:1 fp16, cuda:2 fp16分别在三张卡上载入

好的,多谢,我使用nginx反向代理一下。