详情页标题前

阿里云ECS云服务器监测和诊断eRDMA-云淘科技

详情页1

本文主要介绍几种可用于eRDMA监测诊断工具和方法,以便您对eRDMA的运行状态进行相应的监控。

使用云监控监测eRDMA

您可以通过阿里云的云监控产品来监测eRDMA的运行状态。eRDMA支持的监控指标项可以通过如下步骤查询:

  1. 登录云监控控制台。

  2. 在指标列表搜索框中输入eri,可以筛选出当前eRDMA支持的监控指标。

    说明

    您也可以根据自己的监控需求对相应的监控数据进行加工、监控或者告警。更多信息,请参见自定义监控。

使用eadm监测eRDMA

eadm是eRDMA驱动程序默认自动部署的一个用户态的管理工具,无需手动安装,它是自研的ECS内部的诊断与实时监测工具,便于遇到故障时快速进行定位。eadm工具的主要功能包括:

  • 流量监控、问题辅助诊断等功能:整个设备的实时流量统计功能。

  • 配置的查询与设置功能:包括debug功能的开启、拥塞控制算法CC(Congestion Control )的配置等。

以下主要针对eadm工具常见的命令做说明,其他命令可以参考eadm工具的使用帮助(通过eadm -h命令获取帮助)。

警告

本工具仅用于诊断与调试,工具未来可能发生变化,并不保证命令在任何情况/场景下均可用。

  • 获取当前支持的主命令字

    eadm -h
  • 获取eRDMA设备的实时流量信息

    eadm stat -d  -l

    其中是指待查询的eRDMA设备名称(通过ibv_devinfo命令查询),您需要根据实际环境替换。如果环境中仅有一个eRDMA设备,-d 参数可省略。

  • 获取eRDMA设备的统计信息(例如cm和verebs消息的计数、流量计数等)

    eadm stat -d 

    其中是指待查询的eRDMA设备名称(通过ibv_devinfo命令查询),您需要根据实际环境替换。如果环境中仅有一个eRDMA设备,-d 参数可省略。

  • 获取当前eRDMA驱动的版本信息

    eadm ver

说明

其余命令,例如infodumpconf等会有使用方面的约束限制,不建议您自行使用。

使用iproute2监测eRDMA

iproute2是Linux中管理控制TCP/IP网络和流量控制的新一代工具包,eRDMA的高版本已默认安装iproute2,iproute2自带的rdma命令也可以对rdma子系统做一些相应的监控和诊断。

说明

iproute2工具用完整而有机制的简单命令替代了ifconfig、arp、route、netstat等命令的功能,可用于管理网络接口、路由表和流量控制、帮助管理员快速定位和解决网络连接问题。

  • 查询eRDMA设备的统计信息(例如cm和verebs消息的计数、流量计数等)

    rdma -p stat
  • 查询eRDMA设备当前的资源使用情况

    rdma res
  • 查询当前的eRDMA设备的状态信息

    rdma link

常见问题及解决方法

如何查询当前使用的eRDMA内核驱动版本?

通过标准方式安装的eRDMA,会自动部署eadm工具,通过eadm工具的ver命令,可以查询当前的内核驱动版本号。

eadm ver

新购实例运行rdma程序失败,怎么办?

  1. 运行以下诊断脚本。

    wget https://elastic-rdma.oss-cn-hangzhou.aliyuncs.com/diagnose.py
    python3 diagnose.py -S

    正常情况下,在运行以上命令之后,应当输出全部PASS的结果(在每一行开头有标识),如下图所示:

    阿里云ECS云服务器监测和诊断eRDMA-云淘科技

  2. 当前工具会检查上述9项内容,如果其中某一项出错,请尝试按照如下方式解决。

    出错项

    原因

    解决方式

    设备不可见

    可能是您在购买实例时,没有选中eRDMA功能或者没有添加带有eRDMA功能的辅助网卡。如何购买或者使能eRDMA,请参见在企业级x86实例上配置eRDMA。

    驱动未安装

    未正确安装驱动。请确认您在配置eRDMA过程中的驱动安装步骤是否正确,或者尝试重新安装驱动。具体操作,请参见在企业级x86实例上配置eRDMA。

    驱动未加载

    未正确加载驱动,可能发生在安装完驱动但是尚未重启主机的阶段。请尝试通过modprobe erdma命令解决该问题。

    内核模块未加载

    请尝试通过modprobe ib_uverbs来解决该问题。

    用户态驱动未识别到eRDMA设备

    该问题是由于前述的①~④项未满足导致。

    设备当前没有ACTIVE

    该问题是由于eRDMA设备对应的ENI设备没有变为running状态。这种情况可能出现在某些较旧版本的内核中,需要先通过dhclient -v ethx命令将对应的eth设备使能后,再检查eRDMA设备是否处于ACTIVE状态。

    查询不到统计或者统计计数有error

    • 可能是操作系统不支持rdma stat命令。

    • 可能出现某些错误的计数。在寻求技术支持时,建议带上rdma -p stat命令的输出结果。

    网络的连通性检查不正常

    一般是由于当前有多个网卡的IP地址在同一个子网内,会导致某些场景下eRDMA功能异常。

    内核出现告警

    检查相关的告警错误,并尝试重新加载驱动解决。

  3. 如果仍无法解决,请联系技术支持。

    在寻求技术支持时提供脚本运行结果,便于问题的定位与解决。

如何获取当前系统中的eRDMA设备列表?

  • 方式一:通过ibv_devinfo命令可以详细输出当前系统中可见的所有eRDMA设备。

  • 方式二:通过rdma dev命令(需要操作系统支持)查询当前系统中的eRDMA设备列表。

如何查询eRDMA设备的流量?

在eRDMA设备的驱动版本在0.2.34及以后,均支持流量的监控统计功能。

  1. 运行如下命令,确认驱动版本是否支持流量查询功能,即驱动版本是否在0.2.34及以后。

    eadm ver
  2. 运行如下命令,查询当前设备的实时流量。

  • 仅有一个eRDMA设备

    eadm stat -l
  • 有多个eRDMA设备

    eadm stat -d  -l

    其中是指待查询的eRDMA设备名称(通过ibv_devinfo命令查询),您需要根据实际环境替换。

腾讯云1折,限时活动,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

转转请注明出处:http://www.yunxiaoer.com/151354.html

(0)
上一篇 2023年12月9日 下午4:43
下一篇 2023年12月9日 下午4:43
详情页2

相关推荐

  • 阿里云大数据开发治理平台 DataWorks概述-云淘科技

    DataWorks的安全中心,帮助您快速构建平台的数据内容、个人隐私等相关的安全能力,满足企业面向高风险场景的各类安全要求(例如,审计),无需您额外配置即可直接使用该功能。 DataWorks的安全中心作为云上大数据体系的安全门户,致力于向您提供面向数据安全生命周期全过程的安全能力,同时在符合安全规范要求的前提下,提供各类安全诊断的最佳实践。其核心功能如下:…

  • 阿里云ECS云服务器基于eRDMA增强型实例部署Redis-云淘科技

    使用弹性eRDMA可以获得超低的延迟,更快地处理请求。本文介绍如何在eRDMA增强型实例上部署共享内存通信SMC(Shared Memory Communication)和Redis,然后基于SMC测试Redis处理请求的能力。 背景信息 共享内存通信SMC是一种兼容socket层、使用共享内存技术实现的高性能内核网络协议栈。根据共享内存技术的不同,SMC又…

    2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云RDS数据库诊断报告-云淘科技

    数据库自治服务DAS(Database Autonomy Service)为RDS MySQL提供诊断报告功能,支持创建和查看诊断报告。 前提条件 实例为如下版本: RDS MySQL 8.0 高可用版或集群版 RDS MySQL 5.7 高可用版或集群版 RDS MySQL 5.6 高可用版 RDS MySQL 5.5 高可用版 操作步骤 访问RDS实例列…

    2023年12月9日
  • 阿里云容器服务ACK弹性伸缩FAQ-云淘科技

    本文介绍容器服务ACK弹性伸缩的常见问题及解决办法。 类型 问题 节点自动伸缩常见问题 如何升级cluster-autoscaler至最新版本? cluster-autoscaler可模拟判断的资源有哪些? cluster-autoscaler是否支持自定义资源? 如何指定节点不被cluster-autoscaler缩容? 如何延迟cluster-autos…

    2023年12月10日
  • 阿里云人工智能平台PAI一键诊断-云淘科技

    您可以使用PAI灵骏智算服务提供的一键诊断功能,检查灵骏节点的网络和硬件状态,基于多种通信库和通信模型进行网络测试。本文为您介绍灵骏的一键诊断功能。 自助诊断 网络诊断 网络诊断功能分为静态配置类检查和动态运行类检查,支持诊断灵骏节点的网络状态并提供可视化的诊断结果。 静态配置类检查为灵骏节点提供静态配置类的诊断,包括系统软件检查、网络检查、GPU检查等。 …

    阿里云人工智能平台PAI 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。