详情页标题前

阿里云云原生大数据计算服务 MaxCompute作业超时监控告警-云淘科技

详情页1

MaxCompute支持通过配置阈值报警规则监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。本文为您介绍作业超时报警的监控指标、配置方法及处理报警方式。

前提条件

在配置作业超时报警功能前,请您确认已开通阿里云云监控服务。

背景信息

监控作业运行时长的指标如下。

指标名称

实现原理

适用场景

作业运行时长

以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。

例如,专用于分析师取数据的MaxCompute项目,通常作业运行耗时不长。您需要提前配置该监控指标,如果作业运行时间过长,可以及时检查是否存在资源紧张或作业计算量过大等问题。

作业运行时长_SQL类型

以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。

例如生产项目,您需要提前配置该监控指标,如果作业运行时间过长,可以及时处理超时问题,避免出现业务延迟。

使用限制

作业超时报警的使用限制如下:

  • 云监控服务仅支持华东1(杭州)、华东2(上海)、华北2(北京)和华南1(深圳)四个地域,其他地域暂不支持。

  • 如果由RAM用户账号执行配置监控告警操作,除需要有云监控服务本身的权限外,还需要在RAM控制台赋予RAM用户AliyunCloudMonitorFullAccess和AliyunDataWorksFullAccess权限。更多RAM用户授权信息,请参见为RAM用户授权。

配置监控告警

  1. 登录云监控控制台。

  2. 创建报警联系人。

    更多创建报警联系人操作信息,请参见创建报警联系人。

  3. 创建报警联系组。

    更多创建报警联系组操作信息,请参见创建报警联系组。

  4. 在左侧导航栏,单击报警服务 > 报警规则

  5. 报警规则页面,单击创建报警规则

  6. 创建报警规则页面,配置报警规则相关信息。

    请重点关注下表参数,其他报警规则参数配置,请参见创建报警规则。阿里云云原生大数据计算服务 MaxCompute作业超时监控告警-云淘科技

    参数 说明
    产品 云监控可管理的云产品名称。例如:云数据库RDS版。
    资源范围 报警规则作用的资源范围。取值:

    • 全部资源:报警规则作用于指定云产品的全部资源上,对于新加入的资源生效。
    • 应用分组:报警规则作用于指定云产品的指定应用分组内的全部资源上,对于新加入的资源生效。
    • 实例:报警规则作用于指定云产品的指定资源上。
    规则描述 报警规则的主体。当监控数据满足报警条件时,触发报警规则。规则描述的设置方法如下:

    1. 单击添加规则
    2. 添加规则描述面板,设置规则名称、监控指标类型、监控指标、阈值、报警级别和报警方式等。
    3. 单击确定

    说明 关于如何设置复杂的报警条件,请参见报警规则表达式说明。

    通道沉默周期报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。

    某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

    例如:当通道沉默周期选择12小时时,如果报警未恢复正常,则间隔12小时后,云监控会再次发送报警通知。

    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    报警联系人组 发送报警的联系人组。

    应用分组的报警通知会发送给该报警联系人组中的报警联系人。报警联系人组是一组报警联系人,可以包含一个或多个报警联系人。

    关于如何创建报警联系人和报警联系人组,请参见创建报警联系人或报警联系组。

    报警回调

    公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调。

    当您需要测试报警回调地址的连通性时,可以执行以下操作。

    1. 单击回调地址正后方的测试。在WebHook测试面板,您可以通过Webhook返回的状态码和测试结果详情对报警回调地址的连通性进行判断和排查。说明 您还可以设置Webhook的回调模板类型语言,再次单击测试,获取对应的测试结果详情。
    2. 单击关闭

    说明 单击高级设置,可设置该参数。

    弹性伸缩如果您打开弹性伸缩开关,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则

    • 关于如何创建弹性伸缩组,请参见配置伸缩组。
    • 关于如何创建弹性伸缩规则,请参见配置伸缩规则。

    说明 单击高级设置,可设置该参数。

    日志服务如果您打开日志服务开关,当报警发生时,会将报警信息写入日志服务的日志库。您需要设置日志服务的地域ProjectNameLogstore

    关于如何创建Project和Logstore,请参见快速入门。

    说明 单击高级设置,可设置该参数。

    消息服务MNS-Topic如果您打开消息服务MNS-Topic开关,当报警发生时,会将报警信息写入消息服务的主题。您需要设置消息服务的地域和主题。

    关于如何创建主题,请参见创建主题。

    说明 单击高级设置,可设置该参数。

    无数据处理方法无监控数据时报警的处理方式。取值:

    • 不做任何处理(默认值)
    • 发送无数据报警
    • 视为恢复

    说明 单击高级设置,可设置该参数。

    标签报警规则的标签。包括标签名称和标签值。

处理报警

作业运行时长超过阈值后会触发报警,报警联系人会接收到报警通知。报警联系人可以按照如下流程处理报警:

  1. 进入MaxCompute管家的作业管理页面,基于报警通知中的InstanceID信息,查找到超时作业。

    更多进入作业管理页面操作信息,请参见作业管理。

    更多查看具体作业操作信息,请参见查看具体作业运行详情。

    阿里云云原生大数据计算服务 MaxCompute作业超时监控告警-云淘科技说明

    如果作业仍处于Running状态,请先判断是否需要继续运行,如有需要可选择终止作业。更多终止作业操作信息,请参见终止作业。

    • 如果作业是通过DataWorks节点提交的(上图中的DataWorks节点ID不为空),转2。

    • 如果作业不是通过DataWorks节点提交的,转3。

  2. 可选:进入DataWorks运维中心,查看作业的详细信息,并根据实际情况处理超时问题。

    更多通过DataWorks运维中心查看作业信息,请参见查看并管理周期任务。

  3. 可选:在作业管理页面的Instance列表区域,单击操作列的Logview,查看作业的详细信息,并根据实际情况处理超时问题。

    更多Logview使用信息,请参见使用Logview 2.0查看作业运行信息。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/157402.html

(0)
上一篇 2023年12月10日 上午12:57
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云大数据开发治理平台 DataWorksHybridDB for MySQL数据源-云淘科技

    HybridDB for MySQL数据源为您提供读取和写入HybridDB for MySQL的双向功能,本文为您介绍DataWorks的HybridDB for MySQL数据同步能力支持情况。 使用限制 离线同步支持读取视图表。 HybridDB for MySQL Reader插件支持读取表和视图。表字段可以依序指定全部列、部分列、调整列顺序、指定常…

  • 阿里云负载均衡负载均衡SLB服务等级协议-云淘科技

    详细信息,请参见负载均衡SLB服务等级协议。 内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家阿里云企业补贴进行中: 马上申请腾讯云限时活动1折起,即将结束: 马上收藏同尘科技为腾讯云授权服务中心。 购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

    阿里云负载均衡 2023年12月10日
  • 阿里云日志服务SLS对接Jaeger-云淘科技

    本文介绍如何使用Jaeger客户端对接日志服务。 背景信息 容器、Serverless编程方式提升了软件交付与部署的效率。在架构的演化过程中,可以看到以下变化。 应用架构从单体系统逐步转变为微服务,其中业务逻辑变为微服务之间的调用与请求。 资源角度来看,传统服务器这个物理单位逐渐淡化,变为了虚拟资源模式。 从以上两个变化可以看到这种弹性、标准化的架构背后,原…

    阿里云日志服务SLS 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS采集策略-云淘科技

    日志审计提供一键式跨账号采集云产品日志及中心化存储功能。对于已开通日志审计的阿里云产品,日志服务默认采集所有符合限定条件的云产品日志。而通过采集策略,可对账号、地域或实例等因素进行限制,实现精细化的日志采集目的。本文介绍如何配置采集策略。 产品支持 采集策略目前支持RDS、PolarDB-X 1.0、PolarDB、SLB、ALB、VPC、DNS、Kuber…

    2023年12月10日
  • 阿里云ECS云服务器查看实例监控信息-云淘科技

    监控您的ECS实例是否健康非常重要,您需要确保用户始终可以快速打开您的网站和应用,或者快速完成数据处理和渲染等任务。阿里云提供了监控数据收集、可视化以及实时监控告警等服务,确保您的实例始终处于正常的运行状态。 背景信息 您可以通过ECS控制台和云监控控制台监控实例信息。 ECS控制台:提供vCPU使用率、网络流量和磁盘I/O监控。 云监控控制台:提供更加精细…

    2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。