详情页标题前

腾讯云高性能计算集群GPU 型实例安装 RDMA 毫秒级监控组件

详情页1

功能简介

高性能计算集群具备在 RDMA 网络环境下实现毫秒级监控的能力,这使得您能够实时监测和分析瞬时的网络数据,帮助您深入分析网络流量模式,进行网络优化和性能提升,为业务提供有力支持。

操作场景

本文介绍如何在腾讯云高性能计算集群环境中安装毫秒级监控组件,实现您在腾讯云 RDMA 环境中毫秒级的性能监控。腾讯云提供两种监控数据的查看方式,您可以选择在云产品监控上查看毫秒级监控的统计数据或在实例本地查看保存的监控日志。注意:RDMA 毫秒级监控启动后约会占用小于 0.05 个核资源,可根据业务需要判断是否使用。

操作步骤

准备环境

1、创建 GPU 型 HCCPNV4sne、GPU 型 HCCPNV4sn 或 GPU 型 HCCPNV5v 高性能计算集群实例,镜像建议选择 TencentOS Server 2.4 (TK4)。2、为 GPU 型实例安装 GPU 驱动和 nvidia-fabricmanager 服务。

安装验证

1、在 TencentOS Server 2.4 (TK4) 环境下,您可以使用以下命令安装:

# 卸载已有增强型监控软件包rpm -e rdma_monitor-1.0-1.tl2.x86_64# 下载并安装毫秒级监控组件,        # 安装好软件包后,会自动注册系统服务来启动增强型监控并保活,无需手动启动wget http://mirrors.tencentyun.com/install/GPU/rdma_monitor-1.0-1.tl2.x86_64.rpm && rpm -ivh rdma_monitor-1.0-1.tl2.x86_64.rpm

2、使用以下命令,验证是否安装成功:

ps -aux | grep monitor_server

执行命令,如果红字所示字段,代表增强型监控成功安装启动。

腾讯云高性能计算集群GPU 型实例安装 RDMA 毫秒级监控组件



云产品监控查看

RDMA 毫秒级监控可在云产品监控查看统计数据,您可以在云产品监控-dashboard 中配置您需要的监控指标,操作步骤如下:1、新建 dashboard,指标选择 云服务器-RDMA 监控

腾讯云高性能计算集群GPU 型实例安装 RDMA 毫秒级监控组件

2、选择您需要监控的 RDMA 毫秒级统计指标。

腾讯云高性能计算集群GPU 型实例安装 RDMA 毫秒级监控组件

云产品监控支持查看以下统计数据,您可以根据需要在云产品监控 dashboard 配置。

指标英文名 指标中文名 指标说明(非必填) 单位 维度 统计粒度
RxHpbwAvg 毫秒级_RDMA 网卡接收带宽平均值 10秒内 RDMA 网卡接收带宽的毫秒级统计粒度平均值 Mbps InstanceId 10s、60s、 300s、 3600s
RxHpbwMax 毫秒级_RDMA 网卡接收带宽最大值 10秒内 RDMA 网卡接收带宽的毫秒级统计粒度最大值 Mbps InstanceId 10s、60s、 300s、 3600s
RxHpbwMin 毫秒级_RDMA 网卡接收带宽最小值 10秒内 RDMA 网卡接收带宽的毫秒级统计粒度最小值 Mbps InstanceId 10s、60s、 300s、 3600s
RxHpbwP50 毫秒级_RDMA 网卡接收带宽50百分位值 10秒内从小到大 RDMA 网卡接收带宽的毫秒级统计粒度前50百分位数 Mbps InstanceId 10s、60s、 300s、 3600s、 86400s
RxHpbwP90 毫秒级_RDMA 网卡接收带宽90百分位值 10秒内从小到大 RDMA 网卡接收带宽的毫秒级统计粒度前90百分位数 Mbps InstanceId 10s、60s、 300s、 3600s
TxHpbwAvg 毫秒级_RDMA 网卡发送带宽平均值 10秒内 RDMA 网卡发送带宽的毫秒级统计粒度平均值 Mbps InstanceId 10s、60s、 300s、 3600s
TxHpbwMax 毫秒级_RDMA 网卡发送带宽最大值 10秒内 RDMA 网卡发送带宽的毫秒级统计粒度最大值 Mbps InstanceId 10s、60s、 300s、 3600s
TxHpbwMin 毫秒级_RDMA 网卡发送带宽最小值 10秒内 RDMA 网卡发送带宽的毫秒级统计粒度最小值 Mbps InstanceId 10s、60s、 300s、 3600s
TxHpbwP50 毫秒级_RDMA 网卡发送带宽50百分位 10秒内从小到大 RDMA 网卡发送带宽毫秒级统计粒度前50百分位数 Mbps InstanceId 10s、60s、 300s、 3600s
TxHpbwP90 毫秒级_RDMA 网卡发送带宽90百分位 10秒内从小到大 RDMA 网卡发送带宽毫秒级统计粒度前90百分位数 Mbps InstanceId 10s、60s、 300s、 3600s

3、选择需要监控的高性能计算集群实例 ID。

腾讯云高性能计算集群GPU 型实例安装 RDMA 毫秒级监控组件

4、单击确定即可快速创建 Dashboard。

腾讯云高性能计算集群GPU 型实例安装 RDMA 毫秒级监控组件



本地监控查看

RDMA 毫秒级监控可查看最小 10ms 粒度级别的带宽数据监控,但云产品监控只支持最小粒度为10s的数据上报。如果用户想获取更精确的网卡监控数据,可以使用如下命令,保存毫秒级的数据在本地查看。

# monitor_client 随增强型监控已自动安装,/tmp/monitor.log 为自定义的数据保存路径,文件大小会持续增长,注意管理存储空间monitor_client -r -p raw > /tmp/monitor.log# -r 持续取最近10s的数据# -p 打印选择#  -p summary,默认值,打印统计信息#  -p raw,打印原始数据点#  -p all,打印统计信息和原始数据点# 您可以使用 monitor_client -h 查看更多参数说明

查看记录的监控数据,您可以根据需要分析监控记录,监控记录的格式如下:

腾讯云高性能计算集群GPU 型实例安装 RDMA 毫秒级监控组件

说明:图中部分参数含义解释如下:Device:RDMA 网卡的名称。Received data points:接收侧10s内采集到的数据点数,这里是10s内采集了1000个点,也就是每10ms采集一次数据点,每个点的数据为对应10ms的接收带宽。Timestamp:采集时的时间戳。Data Point n:自时间戳n*10ms后采集到的接收带宽。每个点的采样时间与前后的点均间隔10ms。

官网1折活动,限时活动,即将结束,速速收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

转转请注明出处:https://www.yunxiaoer.com/146571.html

(0)
上一篇 2023年12月9日 上午11:47
下一篇 2023年12月9日 上午11:47
详情页2

相关推荐

  • 阿里云ECS云服务器手动搭建WordPress(CentOS 8)-云淘科技

    WordPress是使用PHP语言开发的博客平台,在支持PHP和MySQL数据库的服务器上,您可以用WordPress架设自己的网站,也可以用作内容管理系统(CMS)。本教程介绍如何在Linux操作系统的ECS实例上搭建WordPress网站。 前提条件 已创建Linux操作系统的ECS实例,并且手动部署LNMP环境,具体操作,请参见手动部署LNMP环境(C…

    2023年12月9日
  • 阿里云大数据开发治理平台 DataWorks迁移ECS自建MySQL数据库至MaxCompute-云淘科技

    本文为您介绍如何使用独享数据集成资源,将您在ECS上自建的MySQL数据库中的数据,迁移到MaxCompute。 前提条件 已拥有至少一个绑定专有网络VPC的ECS(请勿使用经典网络),并在ECS上安装好MySQL数据库,数据库中已创建好用户和测试数据。本文中ECS自建MySQL的测试数据创建语句如下。 CREATE TABLE IF NOT EXISTS …

    2023年12月10日
  • 腾讯云对象存储设置访问域名(CDN/全球加速)

    简介 本文档提供关于如何使用非默认域名请求 COS 服务。 SDK API 参考 SDK 所有接口的具体参数与方法说明,请参见 SDK API。 CDN 默认加速域名 关于如何开启默认加速域名请参见 开启默认 CDN 加速域名。以下代码展示了如何使用默认加速域名访问 COS 服务。 示例代码 Objective-C QCloudCOSXMLEndPoint …

    腾讯云 2023年12月9日
  • 腾讯云对象存储拉取符合条件的文档转码任务

    功能描述 DescribeDocProcessJobs 用于拉取符合条件(状态、创建时间等)的文档转码任务。 授权说明 授权策略中 action 设置为 ci:DescribeDocProcessJobs 。查看所有 action。 服务开通 使用该功能需提前开通数据万象,并绑定存储桶。详情请参见 绑定存储桶。 使用限制 使用该接口时,请先确认相关限制条件。…

    腾讯云 2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 腾讯云云点播如何将网络媒体拉取到云点播

    使用须知 内容介绍 本文档向开发者介绍如何拉取网络视频(以 URL 的形式提供)到云点播(VOD)。 费用 本文提供的代码是免费开源的,但在使用的过程中可能会产生以下费用:购买腾讯云云服务器(CVM)用于执行 API 请求脚本,详见 CVM 计费。消耗 VOD 存储用于存储拉取上传的视频,详见 存储计费 和 存储资源包。 限制 云点播提供的 URL 拉取功能…

    2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。