详情页标题前

腾讯云容器服务Pod 处于 CrashLoopBackOff 状态同尘科技

详情页1

文档介绍可能导致 Pod 处于 CrashLoopBackOff 状态的几种情形,以及如何通过排查步骤定位异常原因。请按照以下步骤依次进行排查,定位问题后恢复正确配置即可。

现象描述

Pod 处于 CrashLoopBackOff 状态,说明该 Pod 在正常启动过后异常退出过,此状态下 Pod 的 restartPolicy 如果不是 Never 就可能会被重启拉起,且 Pod 的 RestartCounts 通常大于0。可首先参考 通过 Exit Code 定位 Pod 异常退出原因 查看对应容器进程的退出状态码,缩小异常问题范围。

可能原因

容器进程主动退出系统 OOMcgroup OOM节点内存碎片化健康检查失败

排查步骤

检查容器进程是否主动退出

容器进程主动退出时,退出状态码通常在0 – 128之间,导致异常的原因可能是业务程序 Bug,也可能是其他原因。请参考 容器进程主动退出 进一步定位异常问题。

检查是否发生系统 OOM

问题分析

如果发生系统 OOM,Pod 中容器退出状态码为137,表示其被 SIGKILL 信号停止,同时内核将会出现以下报错信息。

Out of memory: Kill process ...

该异常是由于节点上部署了其他非 K8S 管理的进程消耗了较多的内存,或是 kubelet 的 --kube-reserved--system-reserved 所分配的内存太小,没有足够的空间运行其他非容器进程。说明节点上所有 Pod 的实际内存占用总量不会超过 /sys/fs/cgroup/memory/kubepods 中的 cgroup 值( cgroup = capacity - "kube-reserved" - "system-reserved")。通常情况下,如果预留空间设置合理,且节点上其他非容器进程(例如 kubelet、dockerd、kube-proxy 及 sshd 等)内存占用没有超过 kubelet 配置的预留空间,是不会发生系统 OOM 的。

解决方法

为确保不再发生此类问题,您可以根据实际需求对预留空间进行合理的调整。

检查是否发生 cgroup OOM

现象描述

如果是因 cgroup OOM 而停止的进程,可看到 Pod 事件下 ReasonOOMKilled,说明容器实际占用的内存已超过 limit,同时内核日志会报 Memory cgroup out of memory 错误信息。

解决方法

请根据需求调整 limit。

节点内存碎片化

如果节点出现内存碎片化严重、缺少大页内存问题,即使总体剩余内存较多,但仍会出现申请内存失败的情况。请参考 内存碎片化 进行异常定位及解决。

健康检查失败

请参考 Pod 健康检查失败 进一步定位异常问题。
容器服务官网1折活动,限时活动,即将结束,速速收藏
同尘科技腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

转转请注明出处:http://www.yunxiaoer.com/148837.html

(0)
上一篇 2023年12月9日
下一篇 2023年12月9日
详情页2

相关推荐

  • 腾讯云云直播时移配置

    直播推流默认关闭时移功能,本文将向您介绍如何对指定推流域名关联时移模板开启时移功能,以及关联成功后如何解绑模板关闭域名时移功能。 使用限制 模板配置完后约5分钟 – 10分钟生效。 模板关联成功后,指定推流域名下的推流地址开启时移功能。一个域名仅可关联一个时移模板,关联后该域名下的所有流均会按照该模板进行时移。 前提条件 已登录 云直播控制台,并…

    2023年12月9日
  • 腾讯云云点播音画质重生

    操作场景 本文演示用户通过控制台发起音画质重生任务,以及在任务中心查看结果。注意:使用音画质重生功能会产生相应的费用,计费方式参见 音画质重生。 操作步骤 步骤1:发起音画质重生任务 1. 登录 云点播控制台,单击左侧导航栏应用管理,进入应用列表页。2. 找到需要管理任务的应用,点击应用名称进入应用管理页。3. 默认进入媒资管理 > 音视频管理,“已上…

    2023年12月9日
  • 腾讯云对象存储语音合成

    简介 本文档提供关于提交一个语音合成任务的相关 API 概览以及 SDK 示例代码。 API 操作描述 提交任务 提交一个语音合成任务。 SDK API 参考 SDK 所有接口的具体参数与方法说明,请参考 SDK API。 提交任务 功能说明 提交一个语音合成任务。说明:COS iOS SDK 版本需要大于等于 v6.2.9。 示例代码 Objectiv…

    腾讯云 2023年12月9日
  • 腾讯云高性能计算集群GPU 型实例安装 RDMA 毫秒级监控组件

    功能简介 高性能计算集群具备在 RDMA 网络环境下实现毫秒级监控的能力,这使得您能够实时监测和分析瞬时的网络数据,帮助您深入分析网络流量模式,进行网络优化和性能提升,为业务提供有力支持。 操作场景 本文介绍如何在腾讯云高性能计算集群环境中安装毫秒级监控组件,实现您在腾讯云 RDMA 环境中毫秒级的性能监控。腾讯云提供两种监控数据的查看方式,您可以选择在云产…

    2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 腾讯云对象存储配置文件解压缩任务

    简介 针对已存在存储桶中的压缩包文件,您可以创建任务进行压缩包的解压操作。说明目前支持解压的压缩包格式:zip、tar、gz、7zip、rar、apk。解压任务支持对小于5TB的文件进行解压。创建任务后,会产生相应的功能费用,由数据万象服务收取,详细的计费说明请参见 文件处理费用。支持的地域:北京、上海、广州、成都、南京、重庆、中国香港、新加坡、硅谷。 创建…

    2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。