gpu topology device plugin
gpu topology device plugin
考虑 gpu 拓扑性的 gpu 调度
的安装部署
配置 node 节点上容器
给每个工作节点上的容器配置支持 gpu 和 阿里云镜像下载加速器。
修改文件/etc/docker/daemon.json 如下:
{
"default-runtime": "nvidia",
"runtimes": {
"nvidia": {
"path": "/usr/bin/nvidia-container-runtime",
"runtimeArgs": []
}
},
"registry-mirrors": ["https://cagz8nbe.mirror.aliyuncs.com"]
}
重新加载配置文件
$ systemctl daemon-reload
$ systemctl restart docker
普通节点上部署 device-plugin
部署 device-plugin (ds rbac)
$ kubectl apply -f https://raw.githubusercontent.com/hellolijj/k8s-device-plugin/gsoc/deploy/gsoc-device-plugin-demo2.yaml
⚠️ 如果节点上已经安装了 nvidia-plugin 需要先将其删掉。如果是 static pod 需要将其一移开 /etc/kubernetes/manifest 目录。
给节点打标签使支持gpu topologyl
$ kubectl label node <target_node> gputopology=true