/k8s-device-plugin

gosc-device-plugin: gpu topology in node level

Primary LanguageGoBSD 3-Clause "New" or "Revised" LicenseBSD-3-Clause

gpu topology device plugin

gpu topology device plugin

考虑 gpu 拓扑性的 gpu 调度

的安装部署

配置 node 节点上容器

给每个工作节点上的容器配置支持 gpu 和 阿里云镜像下载加速器。

修改文件/etc/docker/daemon.json 如下:

{
   "default-runtime": "nvidia",
   "runtimes": {
        "nvidia": {
            "path": "/usr/bin/nvidia-container-runtime",
            "runtimeArgs": []
        }
    },
   "registry-mirrors": ["https://cagz8nbe.mirror.aliyuncs.com"]
}

重新加载配置文件

$ systemctl daemon-reload
$ systemctl restart docker

检查 docker runtime
image.png

普通节点上部署 device-plugin 

部署 device-plugin (ds rbac)

$ kubectl apply -f https://raw.githubusercontent.com/hellolijj/k8s-device-plugin/gsoc/deploy/gsoc-device-plugin-demo2.yaml

⚠️如果节点上已经安装了 nvidia-plugin 需要先将其删掉。如果是 static pod 需要将其一移开 /etc/kubernetes/manifest 目录。

给节点打标签使支持gpu topologyl

$ kubectl label node <target_node> gputopology=true

出现如下情况,则部署成功。
image.png