详情页标题前

阿里云容器服务ACK存储异常问题排查-云淘科技

详情页1

本文介绍关于存储相关异常问题诊断流程和排查思路。

诊断流程

阿里云容器服务ACK存储异常问题排查-云淘科技

  1. 执行以下命令,查看Pod事件,确认Pod无法启动是由存储问题导致。

    kubectl describe pods 

    若查看Pod处于下图所示的状态,说明Pod使用的存储都已成功挂载到Pod上。此时Pod没启动(比如:CrashLoopBackOff)不属于存储问题,请提交工单处理。阿里云容器服务ACK存储异常问题排查-云淘科技

  2. 执行以下命令,查看CSI存储插件是否正常工作。

    kubectl get pod -n kube-system |grep csi

    预期输出:

    NAME                       READY   STATUS             RESTARTS   AGE
    csi-plugin-***             4/4     Running            0          23d
    csi-provisioner-***        7/7     Running            0          14d

    说明

    如果出现非Running状态的Pod,使用kubectl describe pods -n kube-system查看具体Container退出的原因及Pod的Event。

  3. 执行以下命令,查询CSI存储插件是否为最新版本。

    kubectl get ds csi-plugin -n kube-system -oyaml |grep image

    预期输出:

    image: registry.cn-****.aliyuncs.com/acs/csi-plugin:v*****-aliyun

    存储插件最新版本信息,请参见csi-plugin和csi-provisioner,若您集群中存储插件不是最新版本,请升级CSI插件。具体操作,请参见管理组件。其他存储组件升级失败问题排查,请参见组件升级失败问题排查。

  4. 排查Pod Pending问题。

    • 云盘的Pod Pending问题处理,请参见下文云盘Pod的状态为非Running。

    • NAS的Pod Pending问题处理,请参见下文NAS Pod的状态为非Running。

    • OSS的Pod Pending问题处理,请参见下文OSS Pod的状态为非Running。

  5. 排查PVC处于非Bound问题。

    • 云盘的PVC非Bound问题处理,请参见下文云盘PVC的状态为非Bound。

    • NAS的PVC非Bound问题处理,请参见下文NAS PVC的状态为非Bound。

    • OSS的PVC非Bound问题处理,请参见下文OSS PVC的状态为非Bound。

  6. 如果排查后问题仍未解决,请提交工单处理。

组件升级失败问题排查

若组件升级失败,请参考以下操作,进行csi-provisioner和csi-plugin组件升级失败问题排查。

csi-provisioner

  • 该组件默认是2个副本的Deployment,这两个副本互斥,无法部署在同一个节点上。出现升级失败,需要先确认集群中是否只存在一个可用节点。

  • 该组件的历史版本(1.14及之前版本)是StatefulSet,如果集群中存在StatefulSet类型的csi-provisioner,您可以通过执行kubectl delete sts csi-provisioner先删除sts csi-provisioner,然后登录容器服务管理控制台重新安装csi-provisioner组件,具体操作,请参见管理组件。

csi-plugin

  • 检查集群是否存在NotReady的节点,如果存在NotReady的节点, csi-plugin对应的DaemonSet会升级失败。

  • 若发现组件升级失败,但所有的Plugin均正常,这是因为组件中心一旦检查组件升级超时,就会自动回滚。遇到此问题,请提交工单处理。

云盘异常问题排查

说明

  • 节点挂载云盘时,节点与云盘必须是同一地域和同一可用区的,不支持跨地域和跨可用区使用。

  • 不同规格的ECS支持挂载的云盘类型也不相同。更多信息,请参见实例规格族。

Pod的状态为非Running

问题现象:

PVC为Bound状态,Pod为非Running状态。

问题原因:

  • 没有满足条件的节点可以调度。

  • 云盘挂载出现问题。

  • ECS节点和云盘类型不匹配。

解决方案:

  • 通过将Pod调度到其他节点快速恢复。具体操作,请参见调度应用Pod至指定节点。

  • 通过命令kubectl describe pods 查看Pod的Event。

    • 根据不同Event提示信息处理。

      • 云盘挂载问题处理,请参见云盘存储卷FAQ。

      • 云盘卸载问题处理,请参见云盘存储卷FAQ。

    • 若没有相关Event信息,请提交工单处理。

  • 由于ECS节点和云盘类型不匹配导致的,请选择合适类型的云盘。更多信息,请参见实例规格族。

  • 其他ECS OpenAPI类型问题的处理方法,请参见ErrorCode。

PVC的状态为非Bound

问题现象:

PVC为非Bound状态,Pod为非Running状态。

问题原因:

  • 静态方式:由于PVC和PV之间的Selector无法满足互相绑定的条件导致。例如:PVC中Selector配置与PV中的不一致,StorageClass Name不一致、PV状态是Release等问题。

  • 动态方式:由于csi-provisioner组件的某种原因未能创建出对应的云盘。

解决方案:

  • 静态方式:请检查相关的YAML书写是否正确。更多信息,请参见通过kubectl命令行的方式使用云盘静态存储卷。

    说明

    若PV的状态是Release,则该PV无法被复用,需要将云盘ID取出重新创建PV。

  • 动态方式:通过命令kubectl describe pvc -n 查看PVC的Event。

    • 根据不同Event提示信息处理。

      • 云盘创建问题处理,请参见云盘存储卷FAQ。

      • 云盘扩容问题处理,请参见云盘存储卷FAQ。

    • 若没有相关Event信息,请提交工单处理。

  • 可能是ECS OpenAPI创建云盘时出现了问题,请参见ECS错误中心进行排查。如果排查失败,请提交工单处理。

NAS异常问题排查

说明

  • 节点挂载NAS时,节点与NAS必须在同一个VPC网络下。若不在同一VPC,请使用云企业网打通。

  • NAS支持跨可用区挂载。

  • 极速型NAS以及CPFS2.0挂载目录需要以/share开头。

Pod的状态为非Running

问题现象:

PVC为Bound状态,Pod为非Running状态。

问题原因:

  • 挂载NAS时使用了fsGroups,文件较多,导致chmod速度较慢。

  • 安全组中限制了2049端口,导致NAS无法挂载。

  • NAS和节点不在同一个VPC下。

解决方案:

  • 确认是否有fsGroups设置,如有,将其去掉后重启Pod,尝试重新挂载。

  • 确认Pod调度的节点是否限制了2049端口,如果该端口被限制,将2049端口放开后,重新挂载。具体操作,请参见添加安全组规则。

  • 确认NAS和节点在同一VPC下,若不在同一VPC,请使用云企业网打通。

  • 其他问题,通过命令kubectl describe pods 查看Pod的Event。

    • 根据Event提示信息处理,处理方法请参见NAS存储卷FAQ。

    • 若没有相关Event信息,请提交工单处理。

PVC的状态为非Bound

问题现象:

PVC为Bound状态,Pod为非Running状态。

问题原因:

  • 静态方式:由于PVC和PV之间的Selector无法满足互相绑定的条件导致。例如:PVC中Selector配置与PV中的不一致,StorageClass Name不一致、PV状态是Release等问题。

  • 动态方式:由于csi-provisioner组件的某种原因未能挂载NAS。

解决方案:

  • 静态方式:请检查相关的YAML书写是否正确。更多信息,请参见通过kubectl命令行方式使用NAS静态存储卷。

    说明

    若PV的状态是Release,则该PV无法被复用,需要将PV中的Service取出,重新创建PV。

  • 动态方式:通过命令kubectl describe pvc -n 查看PVC的Event。

    • 根据Event提示信息处理,处理方法请参见NAS存储卷FAQ。

    • 若没有相关Event信息,请提交工单处理。

OSS异常问题排查

说明

  • 节点挂载OSS时,PV中需要填写相应的AK/SK信息,可通过Secret方式使用AK/SK。

  • 跨地域使用OSS,需要将Bucket URL改成公网地址,同一地域建议使用内网地址。

Pod的状态为非Running

问题现象:

PVC为Bound状态,Pod状态为非Running。

问题原因:

  • 挂载NAS时使用了fsGroups,文件较多,导致chmod速度较慢。

  • 跨地域使用了内网地址,导致无法连接到Bucket Endpoint。

解决方案:

  • 确认是否有fsGroups设置,如果有,将其去掉后,重启Pod,尝试重新挂载。

  • 确认是否为跨地域且通过内网访问Bucket,如果是,请使用公网地址访问Bucket。

  • 其他问题,通过命令kubectl describe pods 查看Pod的Event。

    • 根据Event提示信息处理,处理方法请参见OSS存储卷FAQ。

    • 若没有相关Event信息,请提交工单处理。

PVC的状态为非Bound

问题现象:

PVC为非Bound状态,Pod为非Running状态。

  • 静态方式:由于PVC和PV之间的Selector无法满足互相绑定的条件导致。例如:PVC中Selector配置与PV中的不一致,StorageClass Name不一致、PV状态是Release等问题。

  • 动态方式:由于csi-provisioner组件的某种原因未能挂载OSS。

解决方案:

  • 静态方式:请检查相关的YAML书写是否正确。更多信息,请参见通过kubectl命令行的方式使用OSS静态存储卷。

    说明

    若PV的状态是Release,则该PV无法被复用,需要将PV中的Bucket地址取出重新创建PV。

  • 动态方式:通过命令kubectl describe pvc -n 查看PVC的Event。

    • 根据Event提示信息处理,处理方法请参见OSS存储卷FAQ。

    • 若没有相关Event信息,请提交工单处理。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/158570.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 大数据计算MaxCompute为什么 odps spark 任务运行那么慢,?-云小二-阿里云

    大数据计算MaxCompute为什么 odps spark 任务运行那么慢, 正常sql在 odps sql 运行只需要十几秒, 在 spark 要四五分钟, 而且形同数据量 spark 写入表里的存储大小, 是 sql 写的 10倍大 ? 以下为热心网友提供的参考意见 我理解这个不能这么比,底层运行机制、环境都不一样。SQL正常来讲是比较快,这是正常的。M…

    2023年12月24日
  • 阿里云对象存储OSSHBase以EMR集群的方式使用OSS-HDFS服务作为底层存储-云淘科技

    HBase是Hadoop生态中的实时数据库,有较高的写入性能。 OSS-HDFS服务(JindoFS服务)是阿里云新推出的存储空间类型,并兼容HDFS接口。阿里云开源大数据开发平台E-MapReduce(简称EMR)支持HBase使用OSS-HDFS服务作为底层存储,同时支持存储WAL文件,实现存储与计算分离。 前提条件 已创建EMR-3.42.0及以上版本…

    阿里云对象存储 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云对象存储OSS使用日志服务告警为您的OSS保驾护航-云淘科技

    日志服务SLS告警作为一站式运维告警平台,为OSS的访问提供了定制化的告警规则。您只需要在日志服务控制台进行简单配置,即可完成对OSS访问指标的监控,并在指标出现异常时及时收到告警通知。 场景描述 客户A是一家多媒体公司,主要产品有短视频App。用户可以在上面发布和观看短视频。客户A使用了OSS中名为examplebucket的存储空间来存储用户产生的短视频…

    2023年12月10日
  • 阿里云对象存储OSS深度冷归档存储使用最佳实践-云淘科技

    深度冷归档存储提供高持久性、低成本的对象存储服务,适用于需要超长时间存放的极冷数据。本文介绍使用深度冷归档存储的最佳实践,避免产生额外费用,帮助您更经济地使用深度冷归档存储。 通过生命周期将Object的存储类型转换为深度冷归档存储 为避免产生较高的PUT类型请求费用,建议您先上传标准存储的Object,然后通过生命周期转换为深度冷归档存储,不建议您直接上传…

    阿里云对象存储 2023年12月10日
  • 阿里云对象存储OSSJava静态网站托管(镜像回源)-云淘科技

    您可以将存储空间(Bucket)设置为静态网站托管模式并设置镜像回源的跳转规则(RoutingRule)。静态网站托管模式配置生效后,访问网站相当于访问Bucket,并且能够自动跳转至指定的索引页面和错误页面。镜像回源的跳转规则配置生效后,可用于数据无缝迁移到OSS的场景。 注意事项 本文以华东1(杭州)外网Endpoint为例。如果您希望通过与OSS同地域…

    阿里云对象存储 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。