详情页标题前

阿里云日志服务SLS为OSS投递任务(新版)设置告警-云淘科技

详情页1

日志服务已内置监控规则模板,您只需添加对应的实例即可实时监控OSS投递任务,并可通过钉钉等渠道接收到告警通知。本文介绍设置告警的相关操作。

前提条件

已创建OSS投递任务。具体操作,请参见创建OSS投递任务(新版)。

步骤一:开启任务运行日志

  1. 登录日志服务控制台。
  2. 在Project列表区域,单击目标Project。该Project为OSS投递任务所在的Project。
  3. 在页面左上方,单击阿里云日志服务SLS为OSS投递任务(新版)设置告警-云淘科技图标。
  4. 进入开通任务运行日志页面。
    • 如果您开未通过该Project的详细日志,则在服务日志页签中,单击开通服务日志。
    • 如果您已开通过该Project的详细日志,则在服务日志页签中,单击阿里云日志服务SLS为OSS投递任务(新版)设置告警-云淘科技图标。
  5. 设置如下参数,然后单击确定。
    参数说明
    任务运行日志打开任务运行日志开关后,系统将在您指定的Project中自动创建一个名为internal-diagnostic_log的Logstore,用于存储定时SQL、MaxCompute投递、OSS投递、数据导入等任务的运行日志与错误日志。日志字段说明,请参见数据导入、投递等任务的运行日志。
    日志存储位置开通任务运行日志功能后,需要选择日志的存储位置,即需要指定Project。可以设置为:

    • 自动创建(推荐)。
    • 当前Project。
    • 同一地域下的其他Project。

    开通任务运行日志后,您可以在指定Project下的internal-diagnostic_log Logstore中查看OSS投递任务的运行日志与错误日志,其日志主题(__topic__)为etl_metrics。您也可以通过投递任务名称查询目标投递任务的运行日志与错误日志,对应的查询语句为job_name:任务名称,例如job_name:job-1646****946

步骤二:配置行动策略

  1. 登录日志服务控制台。
  2. 进入行动策略管理页面。
    1. 在Project列表区域,单击任意的Project。
    2. 在左侧导航栏中,单击告警。
    3. 选择告警管理 > 行动策略。
  3. 找到目标行动策略(sls.app.export.builtin),单击修改。您也可以创建新的行动策略用于告警通知。具体操作,请参见创建行动策略。
  4. 在编辑行动策略页面的第一行动列表页签中,将请求地址修改为钉钉群机器人的Webhook地址。其他选项,保持默认配置。如何获取钉钉群机器人的Webhook地址,请参见钉钉-自定义。您也可以根据业务需求,使用其他告警渠道。具体操作,请参见通知渠道说明。
  5. 单击确认。

步骤三:添加告警实例

日志服务已内置5种监控规则模板。更多信息,请参见告警投递监控规则。您只需根据业务需求,添加对应的告警实例即可。此处以添加数据投递延迟监控规则对应的告警实例为例。

  1. 登录日志服务控制台。
  2. 在Project列表区域,单击目标Project。该Project为您internal-diagnostic_log Logstore所在的Project。
  3. 在左侧导航栏中,单击告警。
  4. 在规则/事务页签中,单击SLS数据投递。
  5. 在规则列表中,单击数据投递延迟监控对应的添加。
  6. 在参数设置对话框中,配置监控规则,然后单击设置并开启。
    参数 说明
    告警名称 告警名称,支持自定义。
    监控的投递任务名称 需要监控的OSS投递任务的名称。

    • 默认值为.*,表示监控当前阿里云账号下所有的OSS投递任务。
    • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    监控阈值 当OSS投递任务的延迟时间超过该值时,触发告警。默认值为300秒。
    行动策略 当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。

    默认为sls.app.export.builtin(SLS数据投递内置行动策略)。您也可以自定义行动策略。具体操作,请参见创建行动策略。

    严重度 定义告警消息的严重度。
    静默期 告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。

    添加完成后,您可以在监控规则列表中,单击数据投递延迟监控规则对应的+,查看已开启的告警实例。阿里云日志服务SLS为OSS投递任务(新版)设置告警-云淘科技

相关操作

为OSS投递任务设置告警后,您还可以进行如下操作。

操作 说明
屏蔽列表 屏蔽列表中的OSS投递任务不会触发告警。
关闭告警实例 关闭告警实例后,告警实例不会再触发告警,状态变更为未开启。

该操作不会删除规则参数中已设置的信息。需要再次监控时,无需重新设置规则参数。

临时关闭告警实例 临时关闭告警实例后,在指定时间内不再触发告警。
恢复告警实例 处于临时关闭状态的监控实例,可随时恢复告警。
删除告警实例 删除告警实例,状态变更为未创建。

该操作会删除规则参数中已设置的信息。需要再次监控时,需要重新设置规则参数。

设置告警实例 修改告警实例的配置参数。

告警投递监控规则

日志服务已内置如下5种监控规则模板,用于监控OSS投递任务。

  • 数据投递延迟监控规则
    项目 说明
    规则名称 数据投递延迟监控。
    作用 用于监控OSS投递任务中Shard消费延迟情况。当投递延迟时长大于监控阈值时,触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的OSS投递任务的名称。
      • 默认值为.*,表示监控当前阿里云账号下所有的OSS投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 监控阈值:当OSS投递任务的延迟时间超过该值时,触发告警。默认值为300秒。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据流量观测仪表盘中的进度落后图表。
    消除方法 请按照如下方法进行处理。

    1. 确认源Logstore的数据量是否明显增长,处理速率是否同时提高。
      • 如果源Logstore的数据量增长的同时处理速率也提高,则说明源Logstore数据在增长,OSS投递任务在自动扩容资源。请先观察5分钟,如果延迟降时间到正常范围,则说明问题解除。否则请执行下一步。
      • 如果源Logstore的数据量增长的同时处理速率未提高或者Shard消费延迟还处于上涨趋势,则说明可能是因为源Logstore的Shard数目不足,导致数据投递资源扩展受限,您需要手动分裂源Logstore的Shard。具体操作,请参见分裂Shard。完成分裂后,请先观察5分钟。如果延迟降时间到正常范围,则说明问题解除。否则请执行下一步。
      • 如果都不是,则执行下一步。
    2. 确认是否存在数据投递异常报错告警。
      • 如果存在,请按照数据投递异常报错监控的消除方法进行处理。处理完成后,观察5分钟。如果延迟降时间到正常范围,则说明问题解除。否则请执行下一步。
      • 如果不存在,则执行下一步。
    3. 准备Project、Logstore和OSS投递任务名称等信息,提交工单联系日志服务技术支持人员。
  • 数据投递异常报错监控规则
    项目 说明
    规则名称 数据投递异常报错监控。
    作用 用于监控OSS投递任务中的异常报错。当OSS投递任务出现异常报错后,触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的OSS投递任务的名称。
      • 默认值为.*,表示监控您当前阿里云账号下所有的OSS投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据流量观测仪表盘中的运行异常图表。
    消除方法 请按照如下方法进行处理。

    • 如果错误信息中包含Unauthorized、InvalidAccessKeyId或SignatureNotMatch,则说明OSS投递任务读取源Logstore数据或者写入数据到OSS Bucket的权限不足。请检查授权操作。更多信息,请参见授权概述。
    • 如果错误信息中包含ProjectNotExist或LogStoreNotExist,则说明OSS投递任务涉及的Project或Logstore不存在。请登录日志服务控制台确认。
    • 如果错误信息中包含TransformError,则说明源Logstore中的数据不满足当前的数据投递逻辑。请从错误信息中找到原始数据的位置,然后修改OSS投递任务的配置并重启任务。如何修改OSS投递任务,请参见修改配置并重启任务。
    • 如果问题仍未解决,请准备Project、Logstore和OSS投递任务名称等信息,提交工单联系日志服务技术支持人员。
  • 数据投递流量(绝对值)监控规则
    项目 说明
    规则名称 数据投递流量(绝对值)监控。
    作用 用于监控OSS投递任务在5分钟内的平均投递条数。当平均投递的日志条数低于监控阈值时触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的OSS投递任务的名称。
      • 默认值为.*,表示监控您当前阿里云账号下所有的OSS投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 监控阈值:当平均投递条数低于该值时,触发告警。默认值为40000行/秒。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据流量观测仪表盘中的处理速率(events/s)图表。
    消除方法 请按照如下方法进行处理。

    1. 确认投递流量变化趋势与源Logstore的数据量增长或减少趋势是否一致。
      • 如果一致,则说明是源Logstore数据量增长或减少导致的。无需处理。
      • 如果不一致,则执行下一步。
    2. 确认是否存在数据投递延迟监控告警。
      • 如果存在,请处理延迟告警。处理完成后,先观察15分钟。
        • 如果数据投递延迟回到1分钟以内,且投递流量与源Logstore数据量增长或减少的趋势一致,则说明问题解除。
        • 如果数据投递延迟回到1分钟以内,但是投递流量与源Logstore数据量增长或减少的趋势仍然不一致,则进行下一步。
      • 如果不存在,则执行下一步。
    3. 准备Project、Logstore和OSS投递任务名称等信息,提交工单联系日志服务技术支持人员。
  • 数据投递流量(日同比)监控规则
    项目 说明
    规则名称 数据投递流量(日同比)监控。
    作用 用于监控OSS投递任务在5分钟内相比昨日的增长阈值和下跌阈值情况。当增长大于日同比增长阈值或下跌超过日同比下跌阈值时触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的OSS投递任务的名称。
      • 默认值为.*,表示监控您当前阿里云账号下所有的OSS投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 日同比增长阈值:当数据投递量日增长大于该值时,触发告警。默认值为40%。
    • 日同比下跌阈值:当数据投递量日下跌大于该值时,触发告警。默认值为20%。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据流量观测仪表盘中的处理速率(events/s)图表。
    消除方法 请按照如下方法进行处理。

    1. 确认投递流量变化趋势与源Logstore的数据量增长或减少趋势是否一致。
      • 如果一致,则说明是源Logstore数据量增长或减少导致的。无需处理。
      • 如果不一致,则执行下一步。
    2. 确认是否存在数据投递延迟监控告警。
      • 如果存在,请处理延迟告警。处理完成后,先观察15分钟。
        • 如果数据投递延迟回到1分钟以内,且投递流量与源Logstore数据量增长或减少的趋势一致,则说明问题解除。
        • 如果数据投递延迟回到1分钟以内,但是投递流量与源Logstore数据量增长或减少的趋势仍然不一致,则进行下一步。
      • 如果不存在,则执行下一步。
    3. 准备Project、Logstore和OSS投递任务名称等信息,提交工单联系日志服务技术支持人员。
  • 数据投递失败条数监控规则
    项目 说明
    规则名称 数据投递失败条数监控。
    作用 用于监控OSS投递任务在15分钟内的投递失败情况。当投递失败的数据条数大于监控阈值时,触发告警。
    参数配置
    • 监控的投递任务名称:需要监控的OSS投递任务的名称。
      • 默认值为.*,表示监控您当前阿里云账号下所有的OSS投递任务。
      • 多个投递任务之间可以使用竖线(|)分隔。您还可以使用正则表达式.*进行配置,例如sche.*,表示监控以sche开头的投递任务。
    • 监控阈值:当投递失败的数据条数超过该值时,触发告警。默认值为10条。
    • 行动策略:当前告警所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。
    • 严重度:告警消息的严重度。
    • 静默期:告警静默期,即重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据流量观测仪表盘中的读(写)失败条数图表。
    消除方法 请按照如下方法进行处理。

    1. 确认是否存在数据投递异常报错告警。
      • 如果存在,请按照数据投递异常报错监控的消除方法进行处理。处理完成后,观察5分钟。如果投递失败的条数降到正常范围,则说明问题解除。否则请执行下一步。
      • 如果不存在,则执行下一步。
    2. 准备Project、Logstore和OSS投递任务名称等信息,提交工单联系日志服务技术支持人员。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/165039.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云日志服务SLSCSV格式-云淘科技

    日志服务将日志投递到OSS后,支持存储为不同的文件格式。本文介绍CSV格式。 参数配置 在配置投递规则时,如果选择存储格式为csv,对应的参数配置如下所示。 参数说明如下所示。更多信息,请参见CSV标准和postgresql CSV说明。 参数 说明 CSV字段 您可以在日志服务的原始日志页签中查看日志字段的Key,将您需要投递到OSS的字段名(Key)有序…

    2023年12月10日
  • 阿里云大数据开发治理平台 DataWorksAnalyticDB for PostgreSQL数据源-云淘科技

    AnalyticDB for PostgreSQL数据源提供读取和写入AnalyticDB for PostgreSQL的双向功能,本文为您介绍DataWorks的AnalyticDB for PostgreSQL数据同步的能力支持情况。 使用限制 离线同步支持读取视图表。 支持的版本 支持版本最高至7.0(含)。 支持的字段类型 离线读 AnalyticD…

  • 阿里云日志服务SLS监控时效性说明-云淘科技

    告警的实现原理基于告警的查询时间范围,根据检查频率定时执行配置的查询语句,并将查询结果作为告警条件的参数进行计算,如果计算结果为true,则触发告警。本文介绍告警监控的时效性说明。 关于监控时效性,说明如下: 创建告警监控规则时,不建议将查询范围设置成和检查频率一样的相对时间。 例如查询范围为相对1分钟,检查频率为固定间隔1分钟。 以检查频率为固定间隔1分钟…

    阿里云日志服务SLS 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS编码解码函数-云淘科技

    本文介绍编码解码函数的语法规则,包括参数解释、函数示例等。 函数列表 类型 子类 函数 说明 编码与解码 字符串类型 str_encode 对数据进行编码。 str_decode 对数据进行解码。 Base64类型 base64_encoding 对数据进行Base64编码。 base64_decoding 对数据进行Base64解码。 HTML类型 htm…

    2023年12月10日
  • 阿里云容器服务ACKACK-TEE机密计算介绍-云淘科技

    本文介绍ACK-TEE(ACK-Trusted Execution Environment)机密计算的概念、核心功能、适用场景、产品方案,以及ACK-TEE和ACK安全沙箱的配合作用等。 基础概念 为有强安全诉求的用户提供了基于硬件加密技术的云原生一站式机密计算容器平台 ,它可以帮助您保护数据使用(计算)过程中的安全性、完整性和机密性,同时简化了可信或机密应…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。