阿里云容器服务ACK节点与节点池FAQ-云淘科技

本文主要为您介绍节点与节点池常见问题。

如何在已有集群的GPU节点上手动升级Kernel？
修复GPU节点容器启动问题
添加Kubernetes集群节点的常见问题
移除节点时提示”drain-node job execute timeout”错误
如何更改ACK集群中Worker节点的主机名称？
如何更换节点池OS镜像？
开启期望节点数与未开启期望节点数的节点池有什么不同？
如何将已有的节点添加到集群？
如何在节点池中选用抢占性实例？
如何更改节点Pod数量？

如何在已有集群的GPU节点上手动升级Kernel？

下面为您介绍如何在已有集群的GPU节点上手动升级Kernel。

说明

当前kernel版本低于3.10.0-957.21.3。

请确认需要升级的目标kernel版本，并谨慎操作。

本文提供方案并不涉及kernel升级，仅针对在kernel升级的前提下对应的Nvidia驱动升级。

获取集群KubeConfig并通过kubectl工具连接集群。

将GPU节点设置为不可调度（本例以节点 cn-beijing.i-2ze19qyi8votgjz12345为例）。

kubectl cordon cn-beijing.i-2ze19qyi8votgjz12345

node/cn-beijing.i-2ze19qyi8votgjz12345 already cordoned

将要升级驱动的GPU节点进行排水。

kubectl drain cn-beijing.i-2ze19qyi8votgjz12345 --grace-period=120 --ignore-daemonsets=true

node/cn-beijing.i-2ze19qyi8votgjz12345 cordoned
WARNING: Ignoring DaemonSet-managed pods: flexvolume-9scb4, kube-flannel-ds-r2qmh, kube-proxy-worker-l62sf, logtail-ds-f9vbg
pod/nginx-ingress-controller-78d847fb96-5fkkw evicted

卸载当前的nvidia-driver。

说明

本步骤中卸载的是版本为384.111的驱动包，如果您的驱动版本不是384.111，则需要在Nvidia官网下载对应的驱动安装包，并将本步骤中的384.111替换成您实际的版本。
1. 登录到该GPU节点，通过nvidia-smi查看驱动版本。
```
sudo nvidia-smi -a | grep 'Driver Version'
Driver Version                      : 384.111
```
2. 下载Nvidia驱动安装包。
```
sudo cd /tmp/
sudo curl -O https://cn.download.nvidia.cn/tesla/384.111/NVIDIA-Linux-x86_64-384.111.run
```
  说明
  
  需要在安装包中卸载Nvidia。
3. 卸载当前Nvidia驱动。
```
sudo chmod u+x NVIDIA-Linux-x86_64-384.111.run
sudo sh ./NVIDIA-Linux-x86_64-384.111.run --uninstall -a -s -q
```
升级Kernel。

您可以根据需要升级Kernel。
重启GPU机器。
```
sudo reboot
```
重新登录GPU节点，安装对应的kernel devel。
```
sudo yum install -y kernel-devel-$(uname -r)
```

请到Nvidia官网下载和安装您需要的Nvidia驱动，本文以410.79为例。

sudo cd /tmp/
sudo curl -O https://cn.download.nvidia.cn/tesla/410.79/NVIDIA-Linux-x86_64-410.79.run
sudo chmod u+x NVIDIA-Linux-x86_64-410.79.run
sudo sh ./NVIDIA-Linux-x86_64-410.79.run -a -s -q

warm up GPU
sudo nvidia-smi -pm 1 || true
sudo nvidia-smi -acp 0 || true
sudo nvidia-smi --auto-boost-default=0 || true
sudo nvidia-smi --auto-boost-permission=0 || true
sudo nvidia-modprobe -u -c=0 -m || true

查看 /etc/rc.d/rc.local，确认其中是否包含以下配置，如果没有请手动添加。

sudo nvidia-smi -pm 1 || true
sudo nvidia-smi -acp 0 || true
sudo nvidia-smi --auto-boost-default=0 || true
sudo nvidia-smi --auto-boost-permission=0 || true
sudo nvidia-modprobe -u -c=0 -m || true

重启kubelet和docker。

sudo service kubelet stop
sudo service docker restart
sudo service kubelet start

将这个GPU节点重新设置为可调度。

kubectl uncordon cn-beijing.i-2ze19qyi8votgjz12345

node/cn-beijing.i-2ze19qyi8votgjz12345 already uncordoned

在GPU节点上的device plugin pod验证版本。

kubectl exec -n kube-system -t nvidia-device-plugin-cn-beijing.i-2ze19qyi8votgjz12345 nvidia-smi
Thu Jan 17 00:33:27 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.79       Driver Version: 410.79       CUDA Version: N/A      |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P100-PCIE...  On   | 00000000:00:09.0 Off |                    0 |
| N/A   27C    P0    28W / 250W |      0MiB / 16280MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

说明

如果通过docker ps命令，发现GPU节点没有容器被启动，请参见修复GPU节点容器启动问题。

修复GPU节点容器启动问题

在某些特定Kubernetes版本中的GPU节点上，重启Kubelet和Docker时，发现没有容器被启动。

sudo service kubelet stop
Redirecting to /bin/systemctl stop kubelet.service
sudo service docker stop
Redirecting to /bin/systemctl stop docker.service
sudo service docker start
Redirecting to /bin/systemctl start docker.service
sudo service kubelet start
Redirecting to /bin/systemctl start kubelet.service

sudo docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES

执行以下命令，查看Docker的Cgroup Driver。

sudo docker info | grep -i cgroup
Cgroup Driver: cgroupfs

此时发现的Cgroup Driver类型是cgroupfs。

您可以按照以下操作，修复该问题。

备份/etc/docker/daemon.json，完成后，执行以下命令更新/etc/docker/daemon.json。

sudo cat >/etc/docker/daemon.json <<-EOF
{
    "default-runtime": "nvidia",
    "runtimes": {
        "nvidia": {
            "path": "/usr/bin/nvidia-container-runtime",
            "runtimeArgs": []
        }
    },
    "exec-opts": ["native.cgroupdriver=systemd"],
    "log-driver": "json-file",
    "log-opts": {
        "max-size": "100m",
        "max-file": "10"
    },
    "oom-score-adjust": -1000,
    "storage-driver": "overlay2",
    "storage-opts":["overlay2.override_kernel_check=true"],
    "live-restore": true
}
EOF

执行以下命令，重启Docker和Kubelet。

sudo service kubelet stop
Redirecting to /bin/systemctl stop kubelet.service
sudo service docker restart
Redirecting to /bin/systemctl restart docker.service
sudo service kubelet start
Redirecting to /bin/systemctl start kubelet.service

执行以下命令，确认Docker的Cgroup Driver的类型为systemd。
```
sudo docker info | grep -i cgroup
Cgroup Driver: systemd
```

如何更改ACK集群中Worker节点的主机名称？

集群创建完成后，不支持自定义Worker节点的主机名称，但是您可以通过节点池的节点命名规则来修改Worker节点的主机名称。

说明

创建集群时，您可以在自定义节点名称参数中定义Worker节点的主机名称。具体操作，请参见创建Kubernetes托管版集群。

移除节点。
1. 登录容器服务管理控制台。
2. 在控制台左侧导航栏，单击集群。
3. 在集群管理页左侧导航栏，选择节点管理 > 节点。
4. 在节点页面单击目标节点右侧操作列下的更多 > 移除。
5. 在弹出的对话框中选中我已了解上述说明，确认移除节点，然后单击确定。
将移除的节点再添加到节点池。具体操作，请参见手动添加节点。

添加的节点将根据节点池的节点命名规则进行命名。

如何更换节点池OS镜像？

更换节点池OS镜像的方法与升级节点池的方法一致，以下为详细操作步骤。

登录容器服务管理控制台，在左侧导航栏选择集群。
在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择节点管理 > 节点池。
在目标节点池所在行，单击操作列的更多 > 升级。
选中更换操作系统，选择要替换的镜像，然后单击开始升级。

说明

更换操作系统时，默认选中Kubelet升级和通过替换节点系统盘的方式升级节点池。请根据实际情况，确认是否选中升级前为节点建立快照。

开启期望节点数与未开启期望节点数的节点池有什么不同？

期望节点数是指节点池应该维持的节点数量。您可以通过调整期望节点数，达到扩容或缩容节点池的目的。但部分老节点池没有设置过期望节点数，从而未开启期望节点数功能。

开启或未开启期望节点数的节点池对于移除节点、释放ECS等不同的操作方式，会有不同感知，具体如下表。

操作	开启期望节点数节点池	未开启期望节点数节点池	建议
通过ACK的OpenAPI或者控制台移除指定节点。	移除指定节点，期望节点数减少移除节点的数目。例如节点池移除指定节点前，期望节点数为10。移除3个节点后，期望节点数更新为7。	移除指定节点。	推荐使用此方式进行缩容。
通过`kubectl delete node`方式移除节点。	期望节点数不会感知，没有变化。	无变化。	不推荐。
手动通过ECS控制台或者OpenAPI释放ECS。	生成新ECS实例，补充到设置的期望节点数。	节点池不感知。不会有新ECS实例生成。节点池节点列表被删除的节点会显示状态为“未知”一段时间。	不推荐，会导致ACK、ESS数据与实际情况不一致，请使用推荐方式移除节点。具体操作，请参见移除节点。
包年包月ECS实例到期。	生成新ECS实例，补充到设置的期望节点数。	节点池不感知。不会有新ECS实例生成。节点池节点列表被删除的节点会显示状态为“未知”一段时间。	不推荐，会导致ACK、ESS数据与实际情况不一致，请使用推荐方式移除节点。具体操作，请参见移除节点。
ESS伸缩组手动开启“实例的健康检查”，并且ECS实例无法通过ESS健康检查（如停机）。	生成新ECS实例，补充到设置的期望节点数。	生成新ECS实例，替换停机实例。	不推荐，请不要直接操作节点池相关的伸缩组。
通过ESS将ECS实例从伸缩组中移除，并且不修改期望实例数。	生成新ECS实例，补充到设置的期望节点数。	不会生成新的ECS实例。	不推荐，请不要直接操作节点池相关的伸缩组。

如何将已有的节点添加到集群？

当您希望将已有节点加入到集群中却没有节点池时，您可以创建一个0节点的节点池，然后手动添加已有ECS为节点。创建0节点的节点池时，选择和您已有的ECS相同的虚拟交换机，并将期望节点数设置为0。手动添加已有ECS为节点，请参见添加已有节点。

说明

每个节点池对应一个弹性伸缩组实例，节点池本身不额外收费，但节点池使用的ECS实例等云资源由对应的云产品计费。

如何在节点池中选用抢占性实例？

可以通过新建节点池或者spot-instance-advisor命令行的方式使用抢占性实例。详细信息请参见抢占式实例节点池最佳实践。

说明

不支持在创建集群时，进行节点池配置中选择抢占性实例。

如何更改节点Pod数量？

不同集群单节点支持的最大Pod数是有限制的，部分集群支持申请例外，提升配额。详细信息，请参见配额限制。
不同网络插件类型对节点Pod数量也是有限制的。集群的网络插件类型可通过集群的基本信息页签查看。
- Flannel网络插件，创建好集群后，每个节点可分配的Pod数量是不支持修改的。如果Pod数量不够，可以扩容节点池增加节点，或者重建集群并重新规划Pod网段。关于扩容节点池，请参见扩缩容节点池。关于创建集群，请参见创建Kubernetes托管版集群。
- Terway网络插件，可以通过变更实例规格来扩容单节点Pod数量。关于变更方式，请参见升降配方式概述。
  
  说明
  - 变更实例规格后，需要设置节点为不可调度，并对节点进行排水，然后重启节点，重启节点后再恢复调度。详细信息，请参见设置节点调度。
  - 查询ECS规格支持的弹性网卡以及单个ENI支持的私有IP数，请参见实例规格族。

内容没看懂？不太想学习？想快速解决？有偿解决：联系专家

阿里云企业补贴进行中：马上申请

腾讯云限时活动1折起，即将结束：马上收藏

 同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折，更有现金返利:同意关联，立享优惠

转转请注明出处：https://www.yunxiaoer.com/171640.html

阿里云容器服务ACK节点与节点池FAQ-云淘科技

如何在已有集群的GPU节点上手动升级Kernel？

修复GPU节点容器启动问题

如何更改ACK集群中Worker节点的主机名称？

如何更换节点池OS镜像？

开启期望节点数与未开启期望节点数的节点池有什么不同？

如何将已有的节点添加到集群？

如何在节点池中选用抢占性实例？

如何更改节点Pod数量？

联系我们

400-800-8888

阿里云容器服务ACK节点与节点池FAQ-云淘科技

如何在已有集群的GPU节点上手动升级Kernel？

修复GPU节点容器启动问题

如何更改ACK集群中Worker节点的主机名称？

如何更换节点池OS镜像？

开启期望节点数与未开启期望节点数的节点池有什么不同？

如何将已有的节点添加到集群？

如何在节点池中选用抢占性实例？

如何更改节点Pod数量？

相关推荐

阿里云容器服务ACK使用Kubernetes API-云淘科技

阿里云容器服务ACK使用NAS静态存储卷-云淘科技

阿里云容器服务ACK使用网关DNAT规则直接访问Pod-云淘科技

阿里云容器服务ACK使用GitOps管理集群-云淘科技

阿里云容器服务ACK使用Terraform管理组件-云淘科技

联系我们

400-800-8888