详情页标题前

阿里云容器服务ACK托管节点池节点自动恢复-云淘科技

详情页1

节点自动恢复是指当集群托管节点池中的节点发生异常时,ACK会自动发起节点恢复操作,使节点保持正常运行状态。节点池为托管节点池或开启托管后,节点池中的节点将同时开启自动恢复功能。ACK将持续关注托管节点池中的节点状态,并根据异常的场景发起恢复操作。本文介绍节点自动恢复的场景和流程。

索引

  • 前提条件
  • 触发条件
  • 恢复流程
  • 自动恢复事件
  • 常见问题
    • 自动恢复失败怎么办?
    • 如何忽略某节点的自动恢复?
  • 相关文档

前提条件

  • 已创建托管节点池或开启托管节点池。具体操作,请参见管理托管节点池。
  • 已开启事件中心。具体操作,请参见事件监控。

触发条件

重要 节点自动恢复的过程中可能涉及节点的排水、替盘等操作,建议将数据保存在数据盘中。

ACK会根据节点的运行状态(Condition)等信息判断是否发起自动恢复任务。您可以执行kubectl describe node命令,通过condition字段查看节点的运行状态。当节点的运行状况异常,且异常持续时间超过阈值时间时,ACK会发起节点自动修复行为。

具体触发条件如下表所示。

检测项目 描述 风险等级 阈值时间

自动修复行为
KubeletNotReady(KubeletHung)Kubelet意外停止工作,导致节点NotReady。180s
  1. 重启Kubelet。
  2. 重启ECS实例。
KubeletNotReady(PLEG)PLEG健康检查失败,导致节点NotReady。180s
  1. 重启Docker或Containerd。
  2. 重启Kubelet。
  3. 重启ECS实例。
KubeletNotReady(SandboxError)PodSandbox not found,导致Kubelet无法正常启动。180s
  1. 删除对应的Sandbox容器。
  2. 重启Kubelet。
RuntimeOfflineDocker或Containerd停止工作,节点不可用。90s
  1. 重启Docker或Containerd。
  2. 重启ECS实例。
NTPProblem时间同步服务(ntpd或chronyd)异常。10s重启ntpd或chronyd。
SystemdOfflineSystemd状态异常,无法启动、销毁容器。90s重启ECS实例。
ReadonlyFilesystem节点文件系统变为只读。90s重启ECS实例。

恢复流程

节点的自愈功能包括问题诊断、恢复决策和恢复任务。

重要 节点诊断依赖NPD组件和事件中心。使用自愈功能前,请确保已正确安装NPD和事件中心。具体操作,请参见事件监控。一个完整的恢复流程中,节点会在以下状态流转。

  • 正常:当前节点不存在可被发现的故障。
  • 故障:当前节点发现故障。
  • 修复失败:当前节点在恢复任务后无法恢复。

阿里云容器服务ACK托管节点池节点自动恢复-云淘科技

  1. 当节点的运行状态发生变化并持续一段时间后,ACK将判定该状态符合故障状态,存在节点故障
  2. 当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。
    • 当恢复任务完成后,故障状态解除,节点恢复正常状态。
    • 当恢复任务完成后,故障状态依然存在,节点会被置为修复失败状态。

说明

  • 如果集群中存在多个节点池,节点池之间的节点自动恢复可以并行执行。
  • 如果一个节点池存在多个异常节点,自动恢复会以串行的方式逐个恢复。一旦某个节点修复失败,ACK将停止对该节点池中其他故障节点的修复。
  • 当节点处于修复失败状态时,该节点不会再触发自动恢复操作。相应的故障解除后,该节点才能再次进行自动恢复操作。

自动恢复事件

ACK触发自动恢复时,会将相关的事件写入事件中心。您可以在集群信息页面选择运维管理 > 事件中心,查看自动恢复的记录和具体操作。

事件原因 事件级别 事件描述
NodeRepairStart Normal 节点开始修复。
NodeRepairAction Normal 节点修复操作,例如重启Kubelet。
NodeRepairSucceed Normal 节点修复成功。
NodeRepairFailed Warning 节点修复失败。

如遇相关问题,请参见常见问题。

NodeRepairIgnore Normal 节点修复跳过,当ECS处于非运行状态时,不对节点进行操作。

常见问题

自动恢复失败怎么办?

由于故障的复杂性,自动恢复任务无法恢复所有的故障场景。当节点自动恢复任务执行失败,或者恢复任务执行完毕后故障并未解除,ACK会将节点标记为修复失败状态。

如果托管节点池中修复某个节点失败,在故障修复前,该节点池不会再触发自动恢复操作。您可以提交工单联系技术支持,手动修复故障。

如何忽略某节点的自动恢复?

如果托管节点池中的某个节点需要暂时忽略自动恢复,您可以为该节点添加以下Label:

alibabacloud.com/repair.policy=disable

相关文档

  • 管理托管节点池
  • 节点与节点池FAQ

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/170671.html

(0)
上一篇 2023年12月10日 下午1:21
下一篇 2023年12月10日 下午1:24
详情页2

相关推荐

  • 阿里云容器服务ACK创建节点池-云淘科技

    在Kubernetes集群中,节点是集群中的物理或虚拟机器,用于运行容器化应用程序。节点池是一组具有相同配置和用途的节点,便于对集群中的节点进行分组管理和运维。本文介绍如何基于容器服务ACK集群创建普通或托管节点池。 前提条件 已创建Kubernetes集群。具体操作,请参见创建Kubernetes托管版集群。 Kubernetes集群连通性正常。具体操作,…

    阿里云容器服务 2023年12月10日
  • 阿里云容器服务ACK托管节点池概述-云淘科技

    托管节点池是ACK全新推出的自动化运维型节点池,可以自动完成部分节点运维操作,例如高危CVE漏洞自动修复、部分故障修复等,从而降低您的节点运维负担。本文介绍托管节点池的基本信息、适用场景、主要特征以及与普通节点池的差异。 索引 注意事项 托管节点池概览图 适用场景 主要特征 托管节点池与普通节点池对比 相关文档 注意事项 托管节点池通过替换系统盘的方式执行节…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云容器服务ACK节点池概述-云淘科技

    通过节点池,您可以更方便地对节点进行分组管理,例如节点运维、节点配置、开启节点自动弹性伸缩、批量管理、指定调度等。本文介绍节点池的概念、节点池与托管节点池对比、节点池功能、计费、相关术语、生命周期等。 索引 节点池概念 节点池与托管节点池介绍 节点池类型 功能对比 节点池功能 节点池计费 节点池相关术语 节点池生命周期 相关文档 节点池概念 为了帮助您高效管…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。