详情页标题前

阿里云日志服务SLS为MaxCompute投递任务(新版)设置告警-云淘科技

详情页1

日志服务已内置数据投递监控规则模板,您只需添加对应的警实例即可实时监控MaxCompute投递任务,并可通过钉钉等渠道接收到告警通知。本文介绍设置告警的相关操作。

前提条件

已创建MaxCompute投递任务。具体操作,请参见创建MaxCompute投递任务(新版)。

步骤一:开启任务运行日志

  1. 登录日志服务控制台。
  2. Project列表区域,单击目标Project。该Project为MaxCompute投递任务所在的Project。
  3. 在页面左上方,单击阿里云日志服务SLS为MaxCompute投递任务(新版)设置告警-云淘科技图标。
  4. 进入开通任务运行日志页面。
    • 如果您还未通过该Project的详细日志,则在服务日志页签中,单击开通服务日志。
    • 如果您已开通过该Project的详细日志,则在服务日志页签中,单击阿里云日志服务SLS为MaxCompute投递任务(新版)设置告警-云淘科技图标。
  5. 设置如下参数,然后单击确定。
    参数说明
    任务运行日志打开任务运行日志开关后,系统将在您指定的Project中自动创建一个名为internal-diagnostic_log的Logstore,用于存储定时SQL、MaxCompute投递、OSS投递、数据导入等任务的运行日志与错误日志。日志字段说明,请参见数据导入、投递等任务的运行日志。
    日志存储位置开通任务运行日志功能后,需要选择日志的存储位置,即需要指定Project。可以设置为:

    • 自动创建(推荐)。
    • 当前Project。
    • 同一地域下的其他Project。

    开通任务运行日志后,您可以在指定Project下的internal-diagnostic_log Logstore中查看MaxCompute投递任务的运行日志与错误日志,其日志主题(__topic__)为etl_metrics。您也可以通过投递任务名称查询目标投递任务的运行日志与错误日志,对应的查询语句为job_name:任务名称,例如job_name:job-1646****946

步骤二:配置行动策略

  1. 登录日志服务控制台。
  2. 进入行动策略管理页面。
    1. 在Project列表区域,单击任意的Project。
    2. 在左侧导航栏中,单击告警。
    3. 选择告警管理 > 行动策略。
  3. 找到目标行动策略(sls.app.export.builtin),单击修改。您也可以创建新的行动策略用于告警通知。具体操作,请参见创建行动策略。
  4. 在编辑行动策略面板的第一行动列表页签中,将请求地址修改为钉钉群机器人的Webhook地址。其他选项,保持默认配置。如何获取钉钉群机器人的WebHook地址,请参见钉钉-自定义。您也可以根据业务需求,使用其他告警渠道。具体操作,请参见通知渠道说明。
  5. 单击确认。

步骤三:添加告警实例

日志服务已内置5种监控规则模板。更多信息,请参见数据投递监控规则。您只需根据业务需求,添加对应的告警实例即可。此处以添加数据投递延迟监控规则对应的告警实例为例。

  1. 登录日志服务控制台。
  2. 在Project列表区域,单击目标Project。该Project为您internal-diagnostic_log Logstore所在的Project。
  3. 在左侧导航栏中,单击告警。
  4. 在规则/事务页签中,单击SLS数据投递。阿里云日志服务SLS为MaxCompute投递任务(新版)设置告警-云淘科技
  5. 在规则列表中,单击数据投递延迟监控对应的添加。
  6. 在参数设置对话框中,配置监控规则,然后单击设置并开启。
    参数 说明
    告警名称 告警名称,支持自定义。
    监控的投递任务名称 需要监控的MaxCompute投递任务的名称。

    • 默认值为.*,表示监控当前阿里云账号下所有的MaxCompute投递任务。
    • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    监控阈值 当MaxCompute投递任务的延迟时间超过该值时,触发告警。默认值为300秒。
    行动策略 当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。

    默认为sls.app.export.builtin(SLS数据投递内置行动策略)。您也可以自定义行动策略。具体操作,请参见创建行动策略。

    严重度 定义告警消息的严重度。
    静默期 设置告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。

    添加完成后,您可以在监控规则列表中,单击数据投递延迟执行规则对应的+,查看已开启的告警实例。阿里云日志服务SLS为MaxCompute投递任务(新版)设置告警-云淘科技

相关操作

为MaxCompute投递任务设置告警后,您还可以进行如下操作。

操作 说明
屏蔽列表 屏蔽列表中的MaxCompute投递任务不会触发告警。
关闭告警实例 关闭告警实例后,告警实例不会再触发告警,状态变更为未开启。

该操作不会删除规则参数中已设置的信息。需要再次监控时,无需重新设置规则参数。

临时关闭告警实例 临时关闭告警实例后,在指定时间内不再触发告警。
恢复告警实例 处于临时关闭状态的监控实例,可随时恢复告警。
删除告警实例 删除告警实例,状态变更为未创建。

该操作会删除规则参数中已设置的信息。需要再次监控时,需要重新设置规则参数。

设置告警实例 修改告警实例的配置参数。

数据投递监控规则

日志服务内置的数据投递监控规则如下所示。

  • 数据投递延迟监控规则
  • 数据投递异常报错监控规则
  • 数据投递流量(绝对值)监控规则
  • 数据投递流量(日同比)监控规则
  • 数据投递失败条数监控规则
  • 数据投递延迟监控规则
    项目 说明
    规则名称 数据投递延迟监控。
    作用 用于监控MaxCompute投递任务中Shard消费延迟情况。当投递延迟时长大于监控阈值时,触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的MaxCompute投递任务的名称。
      • 默认值为.*,表示监控当前阿里云账号下所有的MaxCompute投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 监控阈值:当MaxCompute投递任务的延迟时间超过该值时,触发告警。默认值为300秒。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据流量观测仪表盘中的进度落后图表。
    消除方法 请按照如下方法进行处理。

    1. 确认源Logstore的数据量是否明显增长,处理速率是否同时提高。
      • 如果源Logstore的数据量增长的同时处理速率也提高,则说明源Logstore数据在增长,MaxCompute投递任务在自动扩容资源。请先观察5分钟,如果延迟降时间到正常范围,则说明问题解除。否则请执行下一步。
      • 如果源Logstore的数据量增长的同时处理速率未提高或者Shard消费延迟还处于上涨趋势,则说明可能是因为源Logstore的Shard数目不足,导致数据投递资源扩展受限,您需要手动分裂源Logstore的Shard。具体操作,请参见分裂Shard。完成分裂后,请先观察5分钟。如果延迟降时间到正常范围,则说明问题解除。否则请执行下一步。
      • 如果都不是,则执行下一步。
    2. 确认是否存在数据投递异常报错告警。
      • 如果存在,请按照数据投递异常报错监控的消除方法进行处理。处理完成后,观察5分钟。如果延迟降时间到正常范围,则说明问题解除。否则请执行下一步。
      • 如果不存在,则执行下一步。
    3. 准备Project、Logstore和MaxCompute投递任务名称等信息,提交工单联系日志服务技术支持人员。
  • 数据投递异常报错监控规则
    项目 说明
    规则名称 数据投递异常报错监控。
    作用 用于监控MaxCompute投递任务中的异常报错。当MaxCompute投递任务出现异常报错后,触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的MaxCompute投递任务的名称。
      • 默认值为.*,表示监控您当前阿里云账号下所有的MaxCompute投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据流量观测仪表盘中的运行异常图表。
    消除方法 请按照如下方法进行处理。

    • 如果错误信息中包含Unauthorized、InvalidAccessKeyId或SignatureNotMatch,则说明MaxCompute投递任务读取源Logstore数据或者写入数据到MaxCompute的权限不足。请检查授权操作。更多信息,请参见授权概述。
    • 如果错误信息中包含ProjectNotExist或LogStoreNotExist,则说明MaxCompute投递任务涉及的Project或Logstore不存在。请登录日志服务控制台确认。
    • 如果错误信息中包含TransformError,则说明源Logstore中的数据不满足当前的数据投递逻辑。请从错误信息中找到原始数据的位置,然后修改MaxCompute投递任务的配置并重启任务。如何修改MaxCompute投递任务,请参见修改配置并重启任务。
    • 如果问题仍未解决,请准备Project、Logstore和MaxCompute投递任务名称等信息,提交工单联系日志服务技术支持人员。
  • 数据投递流量(绝对值)监控规则
    项目 说明
    规则名称 数据投递流量(绝对值)监控。
    作用 用于监控MaxCompute投递任务在5分钟内的平均投递条数。当平均投递的日志条数低于监控阈值时触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的MaxCompute投递任务的名称。
      • 默认值为.*,表示监控您当前阿里云账号下所有的MaxCompute投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 监控阈值:当平均投递条数低于该值时,触发告警。默认值为40000行/秒。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据流量观测仪表盘中的处理速率(events/s)图表。
    消除方法 请按照如下方法进行处理。

    1. 确认投递流量变化趋势与源Logstore的数据量增长或减少趋势是否一致。
      • 如果一致,则说明是源Logstore数据量增长或减少导致的。无需处理。
      • 如果不一致,则执行下一步。
    2. 确认是否存在数据投递延迟监控告警。
      • 如果存在,请处理延迟告警。处理完成后,先观察15分钟。
        • 如果数据投递延迟回到1分钟以内,且投递流量与源Logstore数据量增长或减少的趋势一致,则说明问题解除。
        • 如果数据投递延迟回到1分钟以内,但是投递流量与源Logstore数据量增长或减少的趋势仍然不一致,则进行下一步。
      • 如果不存在,则执行下一步。
    3. 准备Project、Logstore和MaxCompute投递任务名称等信息,提交工单联系日志服务技术支持人员。
  • 数据投递流量(日同比)监控规则
    项目 说明
    规则名称 数据投递流量(日同比)监控。
    作用 用于监控MaxCompute投递任务在5分钟内相比昨日的增长阈值和下跌阈值情况。当增长大于日同比增长阈值或下跌超过日同比下跌阈值时触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的MaxCompute投递任务的名称。
      • 默认值为.*,表示监控您当前阿里云账号下所有的MaxCompute投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 日同比增长阈值:当数据投递量日增长大于该值时,触发告警。默认值为40%。
    • 日同比下跌阈值:当数据投递量日下跌大于该值时,触发告警。默认值为20%。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据流量观测仪表盘中的处理速率(events/s)图表。
    消除方法 请按照如下方法进行处理。

    1. 确认投递流量变化趋势与源Logstore的数据量增长或减少趋势是否一致。
      • 如果一致,则说明是源Logstore数据量增长或减少导致的。无需处理。
      • 如果不一致,则执行下一步。
    2. 确认是否存在数据投递延迟监控告警。
      • 如果存在,请处理延迟告警。处理完成后,先观察15分钟。
        • 如果数据投递延迟回到1分钟以内,且投递流量与源Logstore数据量增长或减少的趋势一致,则说明问题解除。
        • 如果数据投递延迟回到1分钟以内,但是投递流量与源Logstore数据量增长或减少的趋势仍然不一致,则进行下一步。
      • 如果不存在,则执行下一步。
    3. 准备Project、Logstore和MaxCompute投递任务名称等信息,提交工单联系日志服务技术支持人员。
  • 数据投递失败条数监控规则
    项目 说明
    规则名称 数据投递失败条数监控。
    作用 用于监控MaxCompute投递任务在15分钟内的投递失败情况。当投递失败的数据条数大于监控阈值时,触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的MaxCompute投递任务的名称。
      • 默认值为.*,表示监控您当前阿里云账号下所有的MaxCompute投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 监控阈值:当投递失败的数据条数超过该值时,触发告警。默认值为10条。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据流量观测仪表盘中的读(写)失败条数图表。
    消除方法 请按照如下方法进行处理。

    1. 确认是否存在数据投递异常报错告警。
      • 如果存在,请按照数据投递异常报错监控的消除方法进行处理。处理完成后,观察5分钟。如果投递失败的条数降到正常范围,则说明问题解除。否则请执行下一步。
      • 如果不存在,则执行下一步。
    2. 准备Project、Logstore和MaxCompute投递任务名称等信息,提交工单联系日志服务技术支持人员。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/165098.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云大数据开发治理平台 DataWorks实时同步任务告警设置最佳实践-云淘科技

    对于DataWorks数据集成的实时同步任务、全增量同步任务的实时同步阶段,您可以设置任务告警规则,用来监控同步任务的状态,本文为您介绍实时同步任务告警设置的指标有哪些,并为您示例一个最佳实践。 告警规则指标 您可以在DataWorks的运维中心对实时同步任务设置报警规则,其中包含的报警指标包括:任务状态、业务延迟、Failover、DDL不支持、DDL通知…

    2023年12月10日
  • 阿里云RDS数据库定时任务(pg_cron)-云淘科技

    本文介绍如何通过RDS PostgreSQL提供的pg_cron插件设置定时任务。 前提条件 实例为RDS PostgreSQL 10或以上版本。 实例内核小版本为20230830或以上。 重要 20230830内核小版本之前已支持此插件,但为了规范插件管理,提升RDS PostgreSQL在插件侧的安全防护,RDS计划在内核版本迭代中陆续对部分存在安全风险…

    阿里云数据库 2023年12月9日
  • 阿里云日志服务SLS短语查询-云淘科技

    本文介绍短语查询的语法、使用限制和示例。 概述 日志服务查询采用的是分词法,例如查询语句为abc def,将匹配所有包含abc和def的日志,不区分先后顺序,无法精准匹配目标短语。现在日志服务推出短语查询,用于精准匹配一段短语。 日志服务接收到短语查询请求后,执行流程主要分为如下两步: 先执行对应的非短语查询语句进行日志查询。例如执行#”/92//docva…

    阿里云日志服务SLS 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS加工历史数据-云淘科技

    日志服务支持加工历史数据,本文介绍加工历史数据的操作步骤及相关问题。 前提条件 已采集数据到日志服务。具体操作,请参见数据采集。 如果您使用的是RAM用户,则需要先授予RAM用户数据加工操作权限。具体操作,请参见授予RAM用户数据加工操作权限。 创建数据加工任务 登录日志服务控制台。 进入数据加工页面。 在Project列表区域,单击目标Project。 在…

    2023年12月10日
  • 阿里云日志服务SLSListMachineGroup-云淘科技

    调用ListMachineGroup接口列出目标Project下的机器组。 接口说明 Host由Project名称和日志服务Endpoint构成,您需要在Host中指定Project。 已创建并获取AccessKey。更多信息,请参见访问密钥。 阿里云账号AccessKey拥有所有API的访问权限,风险很高。强烈建议您创建并使用RAM用户进行API访问或日常…

    阿里云日志服务SLS 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。