详情页标题前

阿里云容器服务ACK通过指定版本号自定义节点GPU驱动版本-云淘科技

详情页1

不同类型和版本的ACK集群默认为您安装不同版本的NVIDIA驱动。如果您使用的CUDA库需要匹配更高版本的NVIDIA驱动,需要自定义安装节点的NVIDIA驱动。本文介绍如何基于节点池标签自定义GPU节点的NVIDIA驱动版本

注意事项

  • 对于GPU驱动版本与您业务应用的兼容性(GPU驱动版本与CDUA库版本的兼容性),ACK不保证两者之间兼容性,请您自行验证。

  • 对于已经安装GPU驱动、NVIDIA Container Runtime等GPU组件的自定义操作系统镜像,ACK无法保证其提供的GPU驱动与ACK其他GPU组件兼容(例如监控组件等)。

  • 通过节点池标签指定节点池中GPU节点的驱动版本时,由于安装驱动的过程是在添加节点时被触发,因此仅对新扩容或新添加的节点有效,对节点池中已经存在的节点无效。如果希望对已有节点有效,那么需要将该节点从节点池移除,再加入原节点池。具体操作,请参见移除节点和添加已有节点。

  • 机型ecs.gn7.xxxxx和ecs.ebmgn7.xxxx对510.xxx和515.xxx版本驱动存在兼容性问题,建议使用关闭GSP的510以下的驱动版本(例如:470.xxx.xxxx)或525.125.06及其以上的驱动版本。

  • NVIDIA各卡型(P100、T4、V100、A10等)对驱动版本的更详细的要求,请参见NVIDIA官方文档。

步骤一:确定NVIDIA驱动版本

从ACK支持的NVIDIA驱动版本列表选择与您业务相匹配的NVIDIA驱动版本。具体操作,请参见如何选择节点NVIDIA驱动版本。

步骤二:创建节点池并指定驱动版本

本文以驱动版本418.181.07为例进行介绍。

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点池

  3. 单击右上角的创建节点池,然后在创建节点池对话框配置相关参数。

    主要配置项说明如下。关于配置项的详细说明,请参见创建Kubernetes托管版集群。

    1. 单击显示高级选项

    2. 节点标签参数栏添加标签,单击阿里云容器服务ACK通过指定版本号自定义节点GPU驱动版本-云淘科技图标,然后在文本框输入ack.aliyun.com/nvidia-driver-version,在文本框输入418.181.07

      关于容器服务提供的可用NVIDIA驱动版本,请参见ACK支持的NVIDIA驱动版本列表。

      重要

      实例规格为ecs.ebmgn7或ecs.ebmgn7e的ECS,仅支持460.32.03之后的NVIDIA驱动版本。

    3. 参数配置完成后,单击确认配置

步骤三:验证节点池自定义安装NVIDIA驱动是否成功

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 在目标集群右侧的操作列,选择更多 > 通过 CloudShell 管理集群

  3. 执行以下命令,查看带有component: nvidia-device-plugin标签的Pod。

    kubectl get po -n kube-system -l component=nvidia-device-plugin -o wide

    预期输出:

    NAME                                            READY   STATUS    RESTARTS   AGE   IP              NODE                       NOMINATED NODE   READINESS GATES
    nvidia-device-plugin-cn-beijing.192.168.1.127   1/1     Running   0          6d    192.168.1.127   cn-beijing.192.168.1.127              
    nvidia-device-plugin-cn-beijing.192.168.1.128   1/1     Running   0          17m   192.168.1.128   cn-beijing.192.168.1.128              
    nvidia-device-plugin-cn-beijing.192.168.8.12    1/1     Running   0          9d    192.168.8.12    cn-beijing.192.168.8.12               
    nvidia-device-plugin-cn-beijing.192.168.8.13    1/1     Running   0          9d    192.168.8.13    cn-beijing.192.168.8.13               
    nvidia-device-plugin-cn-beijing.192.168.8.14    1/1     Running   0          9d    192.168.8.14    cn-beijing.192.168.8.14               

    预期输出表明,NODE列集群中刚添加的节点对应的Pod名称为nvidia-device-plugin-cn-beijing.192.168.1.128。

  4. 执行以下命令查看节点的驱动版本是否符合预期。

    kubectl exec -ti nvidia-device-plugin-cn-beijing.192.168.1.128 -n kube-system -- nvidia-smi

    预期输出:

    Sun Feb  7 04:09:01 2021       
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 418.181.07   Driver Version: 418.181.07   CUDA Version: N/A      |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |===============================+======================+======================|
    |   0  Tesla V100-SXM2...  On   | 00000000:00:07.0 Off |                    0 |
    | N/A   27C    P0    40W / 300W |      0MiB / 16130MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    |   1  Tesla V100-SXM2...  On   | 00000000:00:08.0 Off |                    0 |
    | N/A   27C    P0    40W / 300W |      0MiB / 16130MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    |   2  Tesla V100-SXM2...  On   | 00000000:00:09.0 Off |                    0 |
    | N/A   31C    P0    39W / 300W |      0MiB / 16130MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    |   3  Tesla V100-SXM2...  On   | 00000000:00:0A.0 Off |                    0 |
    | N/A   27C    P0    41W / 300W |      0MiB / 16130MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
                                                                                   
    +-----------------------------------------------------------------------------+
    | Processes:                                                       GPU Memory |
    |  GPU       PID   Type   Process name                             Usage      |
    |=============================================================================|
    |  No running processes found                                                 |
    +-----------------------------------------------------------------------------+

    预期输出表明,驱动版本为418.181.07,即通过节点池自定义安装NVIDIA驱动成功。

其他方式

使用OpenAPI方式创建或者扩容集群时,可在目标节点池的配置中设置自定义驱动的标签。示例代码如下:

{
  // 其他部分省略
  ......
    "tags": [
        {
            "key": "ack.aliyun.com/nvidia-driver-version",
            "value": "418.181.07"
        }
    ],
  // 其他部分省略
  ......
}

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/158690.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云ECS云服务器导入自定义镜像实践-云淘科技

    更多信息,请参见导入自定义镜像。 腾讯云1折,限时活动,即将结束: 马上收藏同尘科技为腾讯云授权服务中心。购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

    阿里云服务器 2023年12月9日
  • 阿里云ECS云服务器自定义镜像概述-云淘科技

    自定义镜像是您基于实例或快照创建的镜像,或者从本地导入的镜像,包含已部署的应用、数据等信息。使用自定义镜像可以快速创建更多相同配置的实例,无需每次创建实例时重复配置操作。 自定义镜像使用流程 当您成功创建或成功导入自定义镜像后,镜像的状态为可用。此时,您可以使用该镜像创建实例,可以将其共享给其他阿里云账号使用,或复制该镜像到其他地域使用,或导出该镜像到OSS…

    阿里云服务器 2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS简介-云淘科技

    机器组是包含多台服务器的虚拟分组,日志服务通过机器组的方式管理所有需要通过Logtail采集日志的服务器。 日志服务支持通过一个Logtail采集配置来采集多台服务器上的日志,您可以将这些服务器加入到同一个机器组,并将Logtail采集配置应用到该机器组。 您可以通过如下两种方法定义一个机器组。 IP地址:在机器组中添加服务器的IP地址,通过IP地址识别服务…

    阿里云日志服务SLS 2023年12月10日
  • 阿里云日志服务SLS配置多账号采集-云淘科技

    日志审计服务支持跨账号采集云产品日志(除K8s相关日志外)到当前账号下的Logstore中。本文介绍配置多账号采集的操作步骤。 前提条件 资源目录管理模式 (推荐) 已创建或邀请成员。具体操作,请参见创建成员或邀请阿里云账号加入资源目录。 已开启日志采集功能。具体操作,请参见开启日志采集功能。 自定义鉴权模式 已开启日志采集功能。具体操作,请参见开启日志采集…

    阿里云日志服务SLS 2023年12月10日
  • 阿里云日志服务SLSWebhook集成-云淘科技

    Webhook集成用于管理Webhook通知渠道,您可以在行动策略中直接使用已创建的Webhook。目前,日志服务支持钉钉、企业微信、飞书、Slack以及自定义的通用Webhook。 操作步骤 登录日志服务控制台。 进入Webhook集成管理页面。 在Project列表区域,单击任意一个Project。 在左侧导航栏中,单击告警。 在告警中心页面,选择通知对…

    阿里云日志服务SLS 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。