详情页标题前

腾讯云容器服务使用 TKE NPDPlus 插件增强节点的故障自愈能力同尘科技

详情页1

在 Kubernetes 集群运行时,节点有时会因为组件问题、内核死锁、资源不足等原因不可用。Kubelet 默认对节点的 PIDPressure、MemoryPressure、DiskPressure 等资源状态进行监控,但是存在当 Kubelet 上报状态时节点已处于不可用状态的情况,甚至 Kubelet 可能已开始驱逐 Pod。在此类场景下,原生 Kubernetes 对节点健康的检测机制是不完善的,为了提前发现节点的问题,需要添加更加细致化的指标来描述节点的健康状态,实现智能运维,以节省开发和减轻运维人员的负担。

node-problem-detector 介绍

NPD(node-problem-detector)是 Kubernetes 社区开源的集群节点的健康检测组件。NPD 提供了通过正则匹配系统日志或文件来发现节点异常的功能。用户可以通过运维经验,配置可能产生异常问题日志的正则表达式,选择不同的上报方式。NPD 会解析用户的配置文件,当有日志能匹配到用户配置的正则表达式时,可以通过 NodeCondition、Event 或 Prometheus Metric 等方式将检测到的异常状态上报。除了日志匹配功能,NPD 还接受用户自行编写的自定义检测插件,用户可以开发自己的脚本或可执行文件集成到 NPD 的插件中,让 NPD 定期执行检测程序。

TKE NPDPlus 组件介绍

在 TKE 中通过扩展组件的形式集成了 NPD,并且对 NPD 的能力做了增强,称为 NodeProblemDetectorPlus(NPDPlus)扩展组件。用户可以对已有集群一键部署 NPDPlus 扩展组件,也可以在创建集群的时候同时部署 NPDPlus。TKE 提取了可以通过特定形式发现节点异常的指标,并将其集成在 NPDPlus 中。例如,可以在 NPDPlus 容器中检测 Kubelet 和 Docker 的 systemd 状态,以及检测主机的文件描述符和线程数压力等。 TKE 使用 NPDPlus 是为了能够提前发现节点的不可用状态,而不是当节点已经不健康后再上报状态。当用户在 TKE 集群中部署了 NPDPlus 后,使用命令 kubectl describe node 后会出现一些 Node Condition,例如,FDPressure 表示该节点上已经使用的文件描述符数量是否已经达到机器允许最大值的80%。ThreadPressure 表示节点上的线程数是否已经达到机器允许的90%等。用户可以监控这些 Condition,当异常状态出现时,提前采取规避策略。详情请参见 Node Conditions。 同时,Kubernetes 目前认为节点 NotReady 的机制依赖于 kube-controller-manager 的参数设定,当节点网络完全不通的情况下,Kubernetes 很难在秒级别发现节点的异常。在一些场景下,例如直播、在线会议等,这种延迟是不能接受的。为了解决这个问题,NPDPlus 引入了分布式节点健康检测功能,该功能可以在秒级别快速地检测节点的网络状态,并判断节点是否能够在不依赖于 Kubernetes master 组件通信的情况下,与其他节点相互通信。TKE NPDPlus 组件使用详情请参见 NodeProblemDetectorPlus 使用方法。 

容器服务官网1折活动,限时活动,即将结束,速速收藏
同尘科技腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

转转请注明出处:https://www.yunxiaoer.com/148579.html

(0)
上一篇 2023年12月9日 下午12:58
下一篇 2023年12月9日 下午12:58
详情页2

相关推荐

  • DataWorks同步OSS上的CSV文件,可以支持使用列作为表分区吗?-云小二-阿里云

    DataWorks同步OSS上的CSV文件,可以支持使用列作为表分区吗? 以下为热心网友提供的参考意见 离线同步任务目前不支持动态分区 ,离线同步任务动态分区 ,此回答整理自钉群“DataWorks交流群(答疑@机器人)” 以下为热心网友提供的参考意见 在DataWorks中,您可以将CSV文件从阿里云OSS同步到ODPS(MaxCompute)表,并且可以…

    阿里云 2023年12月10日
  • 腾讯云内容分发网络CDNHTTPS 相关常见问题

    什么是 HTTPS? HTTPS,是指超文本传输安全协议(Hypertext Transfer Protocol Secure),是一种在 HTTP 协议基础上进行传输加密的安全协议,能够有效保障数据传输安全。配置 HTTPS 时,需要您提供域名对应的证书,将其部署在全网 CDN 节点,实现全网数据加密传输功能。 CDN 是否支持 HTTPS 配置? 腾讯云…

    2023年12月9日
  • 腾讯云云直播实时监播

    实时监播功能为直播流提供全程监控服务,针对重要直播活动,通过实时监播进行直播过程的直观监控,系统会对网络异常、推流中断等影响直播的情况进行告警,便于客户快速干预处理,为重要直播业务保驾护航。 前提条件 已登录 云直播控制台。已添加播放域名 ,详情请参见 添加自有域名。 注意事项 实时监播最多支持创建20个场次记录。实时监播业务中的异常监控(包括格式及内容异常…

    2023年12月9日
  • DataWorks中OSS对象检查节点的路径配置支持通配符吗?-云小二-阿里云

    DataWorks中OSS对象检查节点的路径配置支持通配符吗? 以下为热心网友提供的参考意见 在DataWorks中,OSS对象检查节点的路径配置不支持通配符。该节点用于检查指定的OSS路径下的文件是否存在,当下游任务需要依赖这个OSS文件时,可以使用此功能来先检查文件是否存在。如果检测到目标文件存在,当前任务会成功退出;若到了超时时间仍未检测到目标文件,则…

    阿里云 2023年12月24日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 腾讯云TDSQL-C MySQL版设置告警策略

    本文为您介绍通过控制台创建告警策略和创建后管理告警策略的方法。 操作场景 您可以创建告警用于在 TDSQL-C MySQL 版状态改变时触发警报并发送相关消息。创建的告警会根据每隔一段时间监控的指标相对于给定阈值的情况判断,是否需要触发相关通知。状态改变触发告警后,您可以及时进行相应的预防或补救措施。因此,合理地创建告警能帮助您提高 TDSQL-C MySQ…

    2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。