详情页标题前

腾讯云容器服务GPU 监控指标获取同尘科技

详情页1

组件介绍

TKE 开发了 elastic-gpu-exporter 组件用于获取 GPU 相关监控指标,主要包含:GPU 卡利用率Pod / 容器 GPU 资源利用率

部署方式

elastic-gpu-exporter 通过 DaemonSet 的方式部署到集群里。

apiVersion: apps/v1kind: DaemonSetmetadata:  name: elastic-gpu-exporter  namespace: kube-system  labels:    app: elastic-gpu-exporterspec:  updateStrategy:    type: RollingUpdate  selector:    matchLabels:      name: gpu-manager-ds      app: nano-gpu-exporter  template:    metadata:      name: elastic-gpu-exporter      labels:        name: gpu-manager-ds        app: nano-gpu-exporter    spec:      nodeSelector:        qgpu-device-enable: enable      serviceAccount: elastic-gpu-exporter      hostNetwork: true      hostPID: true      hostIPC: true      containers:        - image: ccr.ccs.tencentyun.com/tkeimages/elastic-gpu-exporter:v1.0.8          imagePullPolicy: Always          args:            - --node=$(NODE_NAME)          env:            - name: "PORT"              value: "5678"            - name: "NODE_NAME"              valueFrom:                fieldRef:                  fieldPath: spec.nodeName          name: elastic-gpu-exporter          securityContext:            capabilities:              add: ["SYS_ADMIN"]          volumeMounts:            - name: cgroup              readOnly: true              mountPath: "/host/sys"      volumes:        - name: cgroup          hostPath:            type: Directory            path: "/sys"---kind: ClusterRoleapiVersion: rbac.authorization.k8s.io/v1metadata:  name: elastic-gpu-exporterrules:  - apiGroups:      - ""    resources:      - nodes    verbs:      - get      - list      - watch  - apiGroups:      - ""    resources:      - events    verbs:      - create      - patch  - apiGroups:      - ""    resources:      - pods    verbs:      - update      - patch      - get      - list      - watch  - apiGroups:      - ""    resources:      - bindings      - pods/binding    verbs:      - create  - apiGroups:      - ""    resources:      - configmaps    verbs:      - get      - list      - watch---apiVersion: v1kind: ServiceAccountmetadata:  name: elastic-gpu-exporter  namespace: kube-system---kind: ClusterRoleBindingapiVersion: rbac.authorization.k8s.io/v1metadata:  name: elastic-gpu-exporter  namespace: kube-systemroleRef:  apiGroup: rbac.authorization.k8s.io  kind: ClusterRole  name: elastic-gpu-exportersubjects:  - kind: ServiceAccount    name: elastic-gpu-exporter    namespace: kube-system---apiVersion: v1kind: Servicemetadata:  name: elastic-gpu-exporter  namespace: kube-system  annotations:    prometheus.io/scrape: "true"  labels:    kubernetes.io/cluster-service: "true"spec:  clusterIP: None  ports:    - name: elastic-gpu-exporter      port: 5678      protocol: TCP      targetPort: 5678  selector:    app: nano-gpu-exporter

查看运行状态

部署后,集群中生成一个 elastic-gpu-exporter 的 DaemonSet:

NAME DESIRED CURRENT READY UP-TO-DATE AVAILABLE NODE SELECTOR AGEelastic-gpu-exporter 1 1 1 1 1  3m36s

符合条件的节点上会有一个运行的 elastic-gpu-exporter 的 Pod:

NAME READY STATUS RESTARTS AGEelastic-gpu-exporter-dblqm 1/1 Running 0 6s

获取监控指标

elastic-gpu-exporter 的服务运行所在节点会输出到 /metrics 路径下,因此也可以通过如下命令获取监控指标:

$ curl NodeIP:5678/metrics

GPU卡相关指标

gpu_xxx GPU 指标
gpu_core_usage GPU 实际使用的算力
gpu_mem_usage GPU 实际使用的显存
gpu_core_utilization_percentage GPU 算力使用率
gpu_mem_utilization_percentage GPU 显存使用率

GPU 卡的指标形式为: 

gpu_core_usage{card="0",node="10.0.66.4"} 0

说明:“card” 表示 GPU 的序号,“node” 表示所在节点。

Pod 相关指标

pod_xxx pod 指标
pod_core_usage pod 实际使用的算力
pod_mem_usage pod 实际使用的显存
pod_core_utilization_percentage pod 实际使用的算力占申请算力的百分比
pod_mem_utilization_percentage pod 实际使用的显存占申请显存的百分比
pod_core_occupy_node_percentage pod 实际使用的算力占节点总算力百分比
pod_mem_utilization_percentage pod 实际使用的显存占节点总显存百分比
pod_core_request pod 申请的算力
pod_mem_request pod 申请的显存

Pod 的指标形式为: 

pod_core_usage{namespace="default",node="10.0.66.4",pod="7a2fa737-eef1-4801-8937-493d7efb16b7"} 0

说明:“namespace” 表示 Pod 所在的 namespace,“node” 表示 Pod 所在节点,“pod” 表示 Pod 的名称。

容器相关指标

container_xxx 容器指标
container_gpu_utilization 容器实际使用的算力
container_gpu_memory_total 容器实际使用的显存
container_core_utilization_percentage 容器实际使用的算力占申请算力的百分比
container_mem_utilization_percentage 容器实际使用的显存占申请显存的百分比
container_request_gpu_memory 容器申请的显存
container_request_gpu_utilization 容器申请的算力

容器的指标形式为: 

container_gpu_utilization{container="cuda",namespace="default",node="10.0.66.4",pod="cuda"} 0

说明:“container” 表示容器名称,“namespace” 表示容器所在的 namespace,“node” 表示容器所在节点,“pod” 表示容器所在的 Pod 的名称。

容器服务官网1折活动,限时活动,即将结束,速速收藏
同尘科技腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

转转请注明出处:https://www.yunxiaoer.com/147769.html

(0)
上一篇 2023年12月9日
下一篇 2023年12月9日
详情页2

相关推荐

  • 腾讯云云点播直播录制相关管理规定

    依据《网络表演经营活动管理办法》规定 第十三条:网络表演经营单位应当建立内部巡查监督管理制度,对网络表演进行实时监管。网络表演经营单位应当记录全部网络表演视频资料并妥善保存,资料保存时间不得少于60日,并在有关部门依法查询时予以提供。网络表演经营单位向公众提供的非实时的网络表演音视频(包括用户上传的),应当严格实行先自审后上线。相关法律法规详细信息可前往 网…

    腾讯云 2023年12月9日
  • 腾讯云云点播社交短视频

    场景描述 社交短视频,顾名思义社交为主体,通过短视频的方式促进社交。该场景具有如下核心需求: 核心诉求 说明 视频快速制作并分享 用户通过短视频的形式记录并分享生活,参与了视频生成、处理、上传、分发和播放等多个环节。让用户简单快速实现这一系列操作将提高用户的参与热情,有利于社交短视频平台的发展,是其核心诉求之一。 媒体智能 在社交短视频平台,用户也可以关注有…

    腾讯云 2023年12月9日
  • 腾讯云云点播购买指引

    注册腾讯云 使用云点播服务前,您需要 注册腾讯云 账号。 申请云点播服务 1. 访问 云点播介绍页 ,单击页面中的免费开通,您将跳转至“开发者资质信息认证”页面。2. 单击前往认证,跳转至官网资质认证信息页面,请正确填写该页面所需信息,通过 实名认证 后,即可访问控制台。 购买云点播服务 云点播目前支持的计费方式有按量计费(后付费)和资源包(预付费)。按量计…

    腾讯云 2023年12月9日
  • 云效依赖包漏洞扫描,有个问题 我们版本是是2.11.4 不在漏洞范围 但是为什么却在漏洞里面?-云小二-阿里云

    云效依赖包漏洞扫描,有个问题 我们版本是是2.11.4 不在漏洞范围 但是为什么却在漏洞里面?

    2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 腾讯云GPU云服务器使用 Docker 安装 TensorFlow 并设置 GPU/CPU 支持

    说明本文来自 GPU 云服务器用户实践征文,仅供学习和参考。 操作场景 您可通过 Docker 快速在 GPU 实例上运行 TensorFlow,且该方式仅需实例已安装 NVIDIA® 驱动程序,无需安装 NVIDIA® CUDA® 工具包。本文介绍如何在 GPU 云服务器上,使用 Docker 安装 TensorFlow 并设置 GPU/CPU 支持。 说…

    腾讯云 2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。