详情页标题前

阿里云日志服务SLS为数据加工任务开启监控告警-云淘科技

详情页1

数据加工任务开启监控后,日志服务会在数据加工存在异常时,为您发送告警通知,便于您快速发现数据加工过程中的异常问题。本文介绍如何为数据加工任务开启监控告警。

前提条件

已创建数据加工任务。更多信息,请参见创建数据加工任务。

背景信息

  • 创建数据加工任务后,日志服务默认为每个加工任务创建一个数据加工仪表盘。在数据加工诊断仪表盘中,建议您关注如下两方面的指标信息。
    • 系统层面:流式加工的消费延迟,是否有异常报错。
    • 业务层面:处理日志行数、输出日志行数。

    更多信息,请参见数据加工仪表盘。

  • 日志服务已内置数据加工告警监控规则、SLS数据加工内置行动策略和SLS数据加工内置内容模板。它们之间的关联如下:
    • 您可以直接开启内置的数据加工告警监控规则实现告警,不再需要编写SQL语句。例如监控数据加工延迟、异常报错和加工失败等规则。更多信息,请参见数据加工监控规则。
    • 通过SLS数据加工内置行动策略指定接收告警的渠道和告警通知模板。
    • 通过SLS数据加工内置内容模板指定告警通知内容的模板。

步骤一:配置行动策略

数据加工内置告警监控规则默认绑定SLS数据加工内置行动策略,因此您在开启告警实例前,需先在该行动策略中设置对应的通知渠道。

  1. 登录日志服务控制台。
  2. 进入行动策略页面。
    1. 在Project列表区域,单击目标Project。
    2. 在左侧导航栏中,单击告警。
    3. 在告警中心页面,选择告警管理 > 行动策略。
  3. 在行动策略页签中,单击SLS数据加工内置行动策略对应的修改。
  4. 在编辑行动策略对话框中,将第一行动列表中钉钉-自定义的请求地址修改为钉钉群机器人的Webhook地址。其他选项,保持默认配置,并单击确认。请参见钉钉-自定义,获取钉钉群机器人的Webhook地址。您也可以根据业务需求,使用其他告警渠道。具体操作,请参见通知渠道说明。

步骤二:开启告警实例

日志服务已内置多种告警监控规则,请根据业务需求,开启对应的告警实例。

  1. 在告警中心页面,单击规则/事务。
  2. 在规则/事务页签中,单击SLS数据加工。
  3. 在监控规则列表中,单击目标告警监控规则对应的开启。开启告警实例后,日志服务开始实时监控所有数据加工任务。
    • 如果您需要开启多个告警示例,可单击添加。
    • 如果您只需要对特定数据加工任务做监控,可单击设置,配置对应数据加工任务ID即可。

    告警监控规则的参数说明,请参见数据加工监控规则。

相关操作

操作 说明
屏蔽列表 针对特定监控规则,如果您希望某些数据加工任务不触发告警,可将其添加至屏蔽列表。
添加告警实例 为该监控规则新增一个告警实例。适用于为指定数据加工任务配置监控告警。
关闭告警实例 关闭告警实例,监控规则不会再触发告警,状态变更为未开启。

该操作不会删除规则参数中已设置的信息。需要再次监控时,无需重新设置规则参数。

临时关闭告警实例 临时关闭告警实例后,在指定时间内不再触发告警。
恢复告警实例 处于临时关闭状态的监控实例,可随时恢复告警。
删除告警实例 删除告警实例,状态变更为未创建。

该操作会删除规则参数中已设置的信息(例如数据加工任务ID)。需要再次监控时,需要重新设置规则参数。

设置告警实例 修改告警实例参数,例如告警名称、监控的加工任务ID、监控阈值、行动策略和严重度。

数据加工监控规则

日志服务支持的内置数据加工监控规则如下。告警监控规则相关操作,请参见相关操作。

  • 数据加工延迟监控
  • 数据加工异常报错监控
  • 数据加工流量(绝对值)监控
  • 数据加工流量(日同比)监控
  • 数据加工失败条数监控

日志服务内置数据加工监控规则的作用、参数、关联仪表盘指标和消除方法如下所示。

  • 数据加工延迟监控规则
    项目 说明
    规则名称 数据加工延迟监控
    作用 用于监控数据加工任务中Shard消费延迟情况。当加工延迟时长大于规则参数中监控阈值时触发告警。
    参数配置
    • 监控的加工任务ID:数据加工任务ID,例如dd2de8e7e23f3e42ffbb32fe05710372。

      默认值为.*,表示对所有数据加工任务进行监控。多个任务ID可用竖线(|)分割。

    • 监控阈值:当数据加工任务的延迟超过该值时,触发告警。默认值为300秒。
    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据加工诊断 > shard消费延迟(秒)
    消除方法 请按照如下原则进行处理:

    1. 如果源Logstore的数据量明显增长:
      • 加工速率 (lines/s)速度同时提高,而且shard消费延迟(秒)出现下降趋势,则说明由于源Logstore数据增长,数据加工任务在自动扩容资源。请先观察5分钟,看延迟是否降到告警范围以内。若否,则进行下一步。
      • 加工速率 (lines/s)速度没有提高,或者shard消费延迟(秒)还处于上涨趋势,则说明可能是源Logstore的Shard数目不足,导致数据加工资源扩展受限,您需要手动分裂源Logstore的Shard。具体操作,请参见分裂Shard。完成分裂后,请先观察5分钟,看延迟是否降到告警范围以内。若否,则进行下一步。
    2. 如果存在数据加工异常报错监控,请优先处理。处理完成后,请先观察5分钟,看延迟是否降到告警范围以内。若否,则进行下一步。
    3. 如果告警无法处理,请准备Project、Logstore和数据加工任务ID信息,提交工单联系阿里云技术支持。
  • 数据加工异常报错监控规则
    项目 说明
    规则名称 数据加工异常报错监控
    作用 用于监控数据加工任务中异常报错。当数据加工出现异常报错时触发告警。
    参数配置
    • 监控的加工任务ID:数据加工任务ID,例如dd2de8e7e23f3e42ffbb32fe05710372。

      默认值为.*,表示对所有数据加工任务进行监控。多个任务ID可用竖线(|)分割。

    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据加工诊断 > 异常详情
    消除方法 请按照如下对应报错信息进行处理:

    • 错误信息中包含Unauthorized、InvalidAccessKeyId或SignatureNotMatch,则说明数据加工任务读取源Logstore数据、或者写入目标Logstore权限不足。更多信息,请参见数据加工授权。
    • 错误信息中包含ProjectNotExist或LogStoreNotExist,则说明数据加工任务涉及的Project或Logstore不存在。请登录日志服务控制台检查并处理。
    • 错误信息中包含SettingError,则说明数据加工任务配置存在错误,例如加工函数参数不正确、外部资源OSS或RDS配置出错。更多信息,请参见数据加工函数。
    • 错误信息中包含TransformError,则说明源Logstore中原始数据不满足当前的数据加工逻辑,可能是新接入数据类型导致。请从错误信息中找到原始数据,更新数据加工任务后重试。更多信息,请参见管理数据加工任务。
  • 数据加工流量(绝对值)监控规则
    项目 说明
    规则名称 数据加工流量(绝对值)监控
    作用 用于监控数据加工任务在5分钟内的平均加工条数。当平均加工条数低于规则参数中监控阈值时触发告警。
    参数配置
    • 监控的加工任务ID:数据加工任务ID,例如dd2de8e7e23f3e42ffbb32fe05710372。

      默认值为.*,表示对所有数据加工任务进行监控。多个任务ID可用竖线(|)分割。

    • 监控阈值:当数据加工平均加工条数低于该值时,触发告警。默认值为40000行/秒。
    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据加工诊断 > 加工速率 (lines/s)
    消除方法 请按照如下原则进行处理:

    1. 如果该值变化趋势与源Logstore的数据量增长(减少)趋势一致,则说明是由于源Logstore数据量导致的。若否,则进行下一步。
    2. 如果存在数据加工延迟监控,请优先处理。处理完成后,请先观察15分钟,如果数据加工延迟已经回到1分钟以内,但是加工数据量与源Logstore数据量增加(减少)趋势不一致,则进行下一步。
    3. 如果告警无法处理,请准备Project、Logstore和数据加工任务ID信息,提交工单联系阿里云技术支持。
  • 数据加工流量(日同比)监控规则
    项目 说明
    规则名称 数据加工流量(日同比)监控
    作用 用于监控数据加工任务在5分钟内相比昨日的增长阈值和下跌阈值情况。当增长大于规则参数中日同比增长阈值或下跌超过规则参数中日同比下跌阈值时触发告警。
    参数配置
    • 监控的加工任务ID:数据加工任务ID,例如dd2de8e7e23f3e42ffbb32fe05710372。

      默认值为.*,表示对所有数据加工任务进行监控。多个任务ID可用竖线(|)分割。

    • 日同比增长阈值:当数据加工日增长大于该值时,触发告警。默认值为40%。
    • 日同比下跌阈值:当数据加工日下跌大于该值时,触发告警。默认值为20%。
    • 行动策略:发送告警时的具体行动策略,包括通知渠道和告警内容模板。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据加工诊断 > 加工速率 (lines/s)
    消除方法 请按照如下原则进行处理:

    1. 如果该值变化趋势与源Logstore的数据量增长(减少)趋势一致,则说明是由于源Logstore数据量导致的。若否,则进行下一步。
    2. 如果存在数据加工延迟监控,请优先处理。处理完成后,请先观察15分钟,如果数据加工延迟已经回到1分钟以内,但是加工数据量与源Logstore数据量增加(减少)趋势不一致,则进行下一步。
    3. 如果告警无法处理,请准备Project、Logstore和数据加工任务ID信息,提交工单联系阿里云技术支持。
  • 数据加工失败条数监控规则
    项目 说明
    规则名称 数据加工失败条数监控
    作用 用于监控数据加工任务在15分钟内加工失败情况。当加工失败条数大于规则参数中监控阈值时触发告警。
    参数配置
    • 监控的加工任务ID:数据加工任务ID,例如dd2de8e7e23f3e42ffbb32fe05710372。

      默认值为.*,表示对所有数据加工任务进行监控。多个任务ID可用竖线(|)分割。

    • 监控阈值:当数据加工任务的失败条数超过该值时,触发告警。默认值为10条。
    • 行动策略:发送告警时的具体行动策略,包括通知渠道和告警内容模板。默认值为SLS数据加工内置行动策略,表示通过钉钉机器人发送通知。
    • 严重度:告警的严重度。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    关联仪表盘 数据加工诊断 > 失败日志数总计
    消除方法 请按照如下原则进行处理:

    1. 请优先按照数据加工异常报错监控消除方法进行处理。如果没有任何报错信息,则进行下一步。
    2. 如果告警无法处理,请准备Project、Logstore和数据加工任务ID信息,提交工单联系阿里云技术支持。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/164387.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 请教一个容器服务ASK k8s的问题,这是k8s的什么机制实现的监听管理的?-云小二-阿里云

    请教一个容器服务ASK k8s的问题,k8s部署prometheus-operator监控服务,但是手工直接修改deploy.yml 、configmap、secret等资源不报错,但修改资源后不生效,感觉这些资源是由另外一个资源监听和管理。就算我删除secret它也会立即创建了,这是k8s的什么机制实现的监听管理的?还请不吝赐教 以下为热心网友提供的参考意…

    2023年12月10日
  • 阿里云对象存储OSS使用报警服务-云淘科技

    当您需要监控OSS资源的使用情况时,可以创建报警规则。如果资源的监控指标达到报警条件,云监控自动发送报警通知,帮助您及时得知异常监控数据,并快速处理。 创建报警规则 登录云监控控制台。 在左侧导航栏,选择报警服务 > 报警规则。 在报警规则页面,单击创建报警规则。 在创建报警规则面板,设置报警规则相关参数。 参数 说明 产品 选择对象存储OSS。 资源…

    阿里云对象存储 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS网络质量分析-云淘科技

    网络质量分析器应用提供网络质量分析报表,用于展示数据延迟、丢包率、探测次数、日活用户等变化趋势,帮助您了解App的网络质量情况。 数据筛选条件 网络质量分析器应用会根据您设置的条件,展示对应的网络质量数据。例如趋势分析图表的筛选条件如下图所示。 趋势分析网络质量分析器应用会根据您设置的条件,展示指定条件下数据延迟、丢包率、探测次数的变化趋势。 延迟:统计指定…

    2023年12月10日
  • 阿里云大数据开发治理平台 DataWorksUpdateRemind-云淘科技

    调用UpdateRemind更新自定义监控规则。 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。 请求参数 名称 类型 是否必选 示例值 描述 Action String 是 UpdateRemind 系统规定参数。取值:UpdateRemind。…

  • 阿里云日志服务SLS复制和分发数据-云淘科技

    日志服务支持对每一个源Logstore配置一个加工任务,实现数据复制后分发到不同Logstore。本文介绍数据复制后分发到不同Logstore的典型场景和操作方法。 场景说明 某数据分析公司需要将Logstore中的每一条数据进行复制,并根据内容分别分发到两个Logstore。对此需求,可通过日志服务数据加工的复制和分发功能完成,包括使用e_set函数设置t…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。