本文主要为您介绍节点与节点池常见问题。
-
如何在已有集群的GPU节点上手动升级Kernel?
-
修复GPU节点容器启动问题
-
添加Kubernetes集群节点的常见问题
-
移除节点时提示”drain-node job execute timeout”错误
-
如何更改ACK集群中Worker节点的主机名称?
-
如何更换节点池OS镜像?
-
开启期望节点数与未开启期望节点数的节点池有什么不同?
-
如何将已有的节点添加到集群?
-
如何在节点池中选用抢占性实例?
-
如何更改节点Pod数量?
如何在已有集群的GPU节点上手动升级Kernel?
下面为您介绍如何在已有集群的GPU节点上手动升级Kernel。
说明
当前kernel版本低于3.10.0-957.21.3
。
请确认需要升级的目标kernel版本,并谨慎操作。
本文提供方案并不涉及kernel升级,仅针对在kernel升级的前提下对应的Nvidia驱动升级。
-
获取集群KubeConfig并通过kubectl工具连接集群。
-
将GPU节点设置为不可调度(本例以节点 cn-beijing.i-2ze19qyi8votgjz12345为例)。
kubectl cordon cn-beijing.i-2ze19qyi8votgjz12345 node/cn-beijing.i-2ze19qyi8votgjz12345 already cordoned
-
将要升级驱动的GPU节点进行排水。
kubectl drain cn-beijing.i-2ze19qyi8votgjz12345 --grace-period=120 --ignore-daemonsets=true node/cn-beijing.i-2ze19qyi8votgjz12345 cordoned WARNING: Ignoring DaemonSet-managed pods: flexvolume-9scb4, kube-flannel-ds-r2qmh, kube-proxy-worker-l62sf, logtail-ds-f9vbg pod/nginx-ingress-controller-78d847fb96-5fkkw evicted
-
卸载当前的nvidia-driver。
说明
本步骤中卸载的是版本为384.111的驱动包,如果您的驱动版本不是384.111,则需要在Nvidia官网下载对应的驱动安装包,并将本步骤中的
384.111
替换成您实际的版本。-
登录到该GPU节点,通过
nvidia-smi
查看驱动版本。sudo nvidia-smi -a | grep 'Driver Version' Driver Version : 384.111
-
下载Nvidia驱动安装包。
sudo cd /tmp/ sudo curl -O https://cn.download.nvidia.cn/tesla/384.111/NVIDIA-Linux-x86_64-384.111.run
说明
需要在安装包中卸载Nvidia。
-
卸载当前Nvidia驱动。
sudo chmod u+x NVIDIA-Linux-x86_64-384.111.run sudo sh ./NVIDIA-Linux-x86_64-384.111.run --uninstall -a -s -q
-
-
升级Kernel。
您可以根据需要升级Kernel。
-
重启GPU机器。
sudo reboot
-
重新登录GPU节点,安装对应的kernel devel。
sudo yum install -y kernel-devel-$(uname -r)
-
请到Nvidia官网下载和安装您需要的Nvidia驱动, 本文以410.79为例。
sudo cd /tmp/ sudo curl -O https://cn.download.nvidia.cn/tesla/410.79/NVIDIA-Linux-x86_64-410.79.run sudo chmod u+x NVIDIA-Linux-x86_64-410.79.run sudo sh ./NVIDIA-Linux-x86_64-410.79.run -a -s -q warm up GPU sudo nvidia-smi -pm 1 || true sudo nvidia-smi -acp 0 || true sudo nvidia-smi --auto-boost-default=0 || true sudo nvidia-smi --auto-boost-permission=0 || true sudo nvidia-modprobe -u -c=0 -m || true
-
查看 /etc/rc.d/rc.local,确认其中是否包含以下配置,如果没有请手动添加。
sudo nvidia-smi -pm 1 || true sudo nvidia-smi -acp 0 || true sudo nvidia-smi --auto-boost-default=0 || true sudo nvidia-smi --auto-boost-permission=0 || true sudo nvidia-modprobe -u -c=0 -m || true
-
重启kubelet和docker。
sudo service kubelet stop sudo service docker restart sudo service kubelet start
-
将这个GPU节点重新设置为可调度。
kubectl uncordon cn-beijing.i-2ze19qyi8votgjz12345 node/cn-beijing.i-2ze19qyi8votgjz12345 already uncordoned
-
在GPU节点上的device plugin pod验证版本。
kubectl exec -n kube-system -t nvidia-device-plugin-cn-beijing.i-2ze19qyi8votgjz12345 nvidia-smi Thu Jan 17 00:33:27 2019 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 410.79 Driver Version: 410.79 CUDA Version: N/A | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla P100-PCIE... On | 00000000:00:09.0 Off | 0 | | N/A 27C P0 28W / 250W | 0MiB / 16280MiB | 0% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+
说明
如果通过
docker ps
命令,发现GPU节点没有容器被启动,请参见修复GPU节点容器启动问题。
修复GPU节点容器启动问题
在某些特定Kubernetes版本中的GPU节点上,重启Kubelet和Docker时,发现没有容器被启动。
sudo service kubelet stop
Redirecting to /bin/systemctl stop kubelet.service
sudo service docker stop
Redirecting to /bin/systemctl stop docker.service
sudo service docker start
Redirecting to /bin/systemctl start docker.service
sudo service kubelet start
Redirecting to /bin/systemctl start kubelet.service
sudo docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
执行以下命令,查看Docker的Cgroup Driver。
sudo docker info | grep -i cgroup
Cgroup Driver: cgroupfs
此时发现的Cgroup Driver类型是cgroupfs。
您可以按照以下操作,修复该问题。
-
备份/etc/docker/daemon.json,完成后,执行以下命令更新/etc/docker/daemon.json。
sudo cat >/etc/docker/daemon.json <<-EOF { "default-runtime": "nvidia", "runtimes": { "nvidia": { "path": "/usr/bin/nvidia-container-runtime", "runtimeArgs": [] } }, "exec-opts": ["native.cgroupdriver=systemd"], "log-driver": "json-file", "log-opts": { "max-size": "100m", "max-file": "10" }, "oom-score-adjust": -1000, "storage-driver": "overlay2", "storage-opts":["overlay2.override_kernel_check=true"], "live-restore": true } EOF
-
执行以下命令,重启Docker和Kubelet。
sudo service kubelet stop Redirecting to /bin/systemctl stop kubelet.service sudo service docker restart Redirecting to /bin/systemctl restart docker.service sudo service kubelet start Redirecting to /bin/systemctl start kubelet.service
-
执行以下命令,确认Docker的Cgroup Driver的类型为systemd。
sudo docker info | grep -i cgroup Cgroup Driver: systemd
如何更改ACK集群中Worker节点的主机名称?
集群创建完成后,不支持自定义Worker节点的主机名称,但是您可以通过节点池的节点命名规则来修改Worker节点的主机名称。
说明
创建集群时,您可以在自定义节点名称参数中定义Worker节点的主机名称。具体操作,请参见创建Kubernetes托管版集群。
-
移除节点。
-
登录容器服务管理控制台。
-
在控制台左侧导航栏,单击集群。
-
在集群管理页左侧导航栏,选择节点管理 > 节点。
-
在节点页面单击目标节点右侧操作列下的更多 > 移除。
-
在弹出的对话框中选中我已了解上述说明,确认移除节点,然后单击确定。
-
-
将移除的节点再添加到节点池。具体操作,请参见手动添加节点。
添加的节点将根据节点池的节点命名规则进行命名。
如何更换节点池OS镜像?
更换节点池OS镜像的方法与升级节点池的方法一致,以下为详细操作步骤。
-
登录容器服务管理控制台,在左侧导航栏选择集群。
-
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点池。
-
在目标节点池所在行,单击操作列的更多 > 升级。
-
选中更换操作系统,选择要替换的镜像,然后单击开始升级。
说明
更换操作系统时,默认选中Kubelet升级和通过替换节点系统盘的方式升级节点池。请根据实际情况,确认是否选中升级前为节点建立快照。
开启期望节点数与未开启期望节点数的节点池有什么不同?
期望节点数是指节点池应该维持的节点数量。您可以通过调整期望节点数,达到扩容或缩容节点池的目的。但部分老节点池没有设置过期望节点数,从而未开启期望节点数功能。
开启或未开启期望节点数的节点池对于移除节点、释放ECS等不同的操作方式,会有不同感知,具体如下表。
操作 |
开启期望节点数节点池 |
未开启期望节点数节点池 |
建议 |
通过ACK的OpenAPI或者控制台移除指定节点。 |
移除指定节点,期望节点数减少移除节点的数目。例如节点池移除指定节点前,期望节点数为10。移除3个节点后,期望节点数更新为7。 |
移除指定节点。 |
推荐使用此方式进行缩容。 |
通过 |
期望节点数不会感知,没有变化。 |
无变化。 |
不推荐。 |
手动通过ECS控制台或者OpenAPI释放ECS。 |
生成新ECS实例,补充到设置的期望节点数。 |
节点池不感知。不会有新ECS实例生成。节点池节点列表被删除的节点会显示状态为“未知”一段时间。 |
不推荐,会导致ACK、ESS数据与实际情况不一致,请使用推荐方式移除节点。具体操作,请参见移除节点。 |
包年包月ECS实例到期。 |
生成新ECS实例,补充到设置的期望节点数。 |
节点池不感知。不会有新ECS实例生成。节点池节点列表被删除的节点会显示状态为“未知”一段时间。 |
不推荐,会导致ACK、ESS数据与实际情况不一致,请使用推荐方式移除节点。具体操作,请参见移除节点。 |
ESS伸缩组手动开启“实例的健康检查”,并且ECS实例无法通过ESS健康检查(如停机)。 |
生成新ECS实例,补充到设置的期望节点数。 |
生成新ECS实例,替换停机实例。 |
不推荐,请不要直接操作节点池相关的伸缩组。 |
通过ESS将ECS实例从伸缩组中移除,并且不修改期望实例数。 |
生成新ECS实例,补充到设置的期望节点数。 |
不会生成新的ECS实例。 |
不推荐,请不要直接操作节点池相关的伸缩组。 |
如何将已有的节点添加到集群?
当您希望将已有节点加入到集群中却没有节点池时,您可以创建一个0节点的节点池,然后手动添加已有ECS为节点。创建0节点的节点池时,选择和您已有的ECS相同的虚拟交换机,并将期望节点数设置为0。手动添加已有ECS为节点,请参见添加已有节点。
说明
每个节点池对应一个弹性伸缩组实例,节点池本身不额外收费,但节点池使用的ECS实例等云资源由对应的云产品计费。
如何在节点池中选用抢占性实例?
可以通过新建节点池或者spot-instance-advisor
命令行的方式使用抢占性实例。详细信息请参见抢占式实例节点池最佳实践。
说明
不支持在创建集群时,进行节点池配置中选择抢占性实例。
如何更改节点Pod数量?
-
不同集群单节点支持的最大Pod数是有限制的,部分集群支持申请例外,提升配额。详细信息,请参见配额限制。
-
不同网络插件类型对节点Pod数量也是有限制的。集群的网络插件类型可通过集群的基本信息页签查看。
-
Flannel网络插件,创建好集群后,每个节点可分配的Pod数量是不支持修改的。 如果Pod数量不够,可以扩容节点池增加节点,或者重建集群并重新规划Pod网段。关于扩容节点池,请参见扩缩容节点池。关于创建集群,请参见创建Kubernetes托管版集群。
-
Terway网络插件,可以通过变更实例规格来扩容单节点Pod数量 。关于变更方式,请参见升降配方式概述。
说明
-
变更实例规格后,需要设置节点为不可调度,并对节点进行排水,然后重启节点,重启节点后再恢复调度。详细信息,请参见设置节点调度。
-
查询ECS规格支持的弹性网卡以及单个ENI支持的私有IP数,请参见实例规格族。
-
-
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家
阿里云企业补贴进行中: 马上申请
腾讯云限时活动1折起,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠
转转请注明出处:https://www.yunxiaoer.com/171640.html