详情页标题前

阿里云日志服务SLS使用内置的Logtail告警监控规则-云淘科技

详情页1

日志服务已内置监控规则,您只需开启对应的告警实例即可实时监控Logtail,并可通过钉钉等渠道接收到告警通知。本文介绍使用Logtail内置告警监控规则的操作步骤。

前提条件

已为目标Project开启重要日志功能。具体操作,请参见开通服务日志。

背景信息

当您为目标Project开启重要日志功能后,日志服务会自动在您所选择的Project下创建一个名为internal-diagnostic_log的Logstore,用于记录Logtail心跳日志。日志服务基于该日志预设了Logtail告警监控规则,用于实时监控Logtail。

步骤一:配置行动策略

Logtail内置告警监控规则默认绑定SLS Logtail内置行动策略,因此您在开启告警实例前,需先在该行动策略中设置对应的通知渠道。

  1. 登录日志服务控制台。

  2. 在Project列表中,找到目标Project。

    该Project为您在开启重要日志时,所选择的Project。

  3. 在左侧导航栏中,单击告警

  4. 告警中心页面,选择告警管理 > 行动策略

  5. 在行动策略列表中,找到目标行动策略(sls.app.logtail.builtin),单击修改

    您也可以创建新的行动策略用于告警通知。具体操作,请参见创建行动策略。

  6. 编辑行动策略对话框中,将请求地址修改为钉钉群机器人的Webhook地址。其他选项,保持默认配置。然后单击确认

    如何获取钉钉群机器人的Webhook地址,请参见钉钉-自定义。您也可以根据业务需求,使用其他告警渠道。具体操作,请参见通知渠道说明。

步骤二:开启告警实例

日志服务已内置多种告警监控规则,您只需根据业务需求,开启对应的告警实例即可。

  1. 告警中心页面,单击规则/事务

  2. 规则/事务页签中,单击SLS Logtail

  3. 在告警监控规则列表中,单击目标告警监控规则对应的开启

    每个告警监控规则已预设参数,您可以直接单击开启。如果您要修改参数设置,可单击设置,进行修改。关于参数说明的更多信息,请参见Logtail告警监控规则。

Logtail告警监控规则

日志服务已内置如下告警监控规则,用于监控Logtail。

  • Logtail重启告警

  • Logtail采集延迟告警

  • Logtail Quota超限告警

  • Logtail日志解析错误告警

  • 同一Project下的Logtail采集错误数监控

  • 同一Project下的Logtail采集错误数日同比监控

  • 同一Logstore下的Logtail采集错误数监控

  • 同一Logstore下的Logtail采集错误数日同比监控

  • Logtail重启告警

    项目

    说明

    作用

    监控Logtail的重启行为。

    检测频率&检测时间范围

    每5分钟检测一次过去5分钟内的数据。

    触发条件

    过去5分钟内,当同一个客户端出现Logtail重启次数超过设定的阈值时,触发告警。

    参数配置

    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。

    • 重启次数阈值(严重):过去5分钟内,当同一个客户端出现Logtail重启次数大于该阈值时,则触发严重级别的告警。默认值为3。

    • 重启次数阈值(高):过去5分钟内,当同一个客户端出现Logtail重启次数大于该阈值时,则触发高级别的告警。默认值为1。

    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。

    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。

    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。

  • Logtail采集延迟告警

    项目

    说明

    作用

    监控Logtail的采集延迟。

    检测频率&检测时间范围

    每5分钟检测一次过去5分钟内的数据。

    触发条件

    过去5分钟内,当有Logstore出现Logtail采集延迟时,触发告警。

    参数配置

    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。

    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。

    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。

    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。

    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。

  • Logtail Quota超限告警

    项目

    说明

    作用

    监控Logtail Quota超限情况。

    检测频率&检测时间范围

    每5分钟检测一次过去5分钟内的数据。

    触发条件

    过去5分钟内,当有Logstore出现因Quota超限导致Logtail发送数据失败时,触发告警。

    参数配置

    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。

    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。

    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。

    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。

    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。

  • Logtail日志解析错误告警

    项目

    说明

    作用

    监控Logtail日志解析错误的异常。

    检测频率&检测时间范围

    每5分钟检测一次过去5分钟内的数据。

    触发条件

    过去5分钟内,当有Logstore出现Logtail日志解析错误时,触发告警。

    参数配置

    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。

    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。

    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。

    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。

    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。

  • 同一Project下的Logtail采集错误数监控

    项目

    说明

    作用

    监控Logtail采集错误的数量。

    检测频率&检测时间范围

    每5分钟检测一次过去5分钟内的数据。

    触发条件

    过去5分钟内,当同一个Project出现Logtail采集错误数量超过设定的阈值时,触发告警。

    参数配置

    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。

    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。

    • 采集错误数量阈值:过去5分钟内,当同一个Project出现Logtail采集错误数量大于该阈值时,触发告警。

    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。

    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。

    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。

  • 同一Project下的Logtail采集错误数日同比监控

    项目

    说明

    作用

    监控Logtail采集错误数量的日同比变化情况。

    检测频率&检测时间范围

    每5分钟检测一次过去5分钟内的数据。

    触发条件

    过去5分钟内,当同一个Project出现Logtail采集错误数量同比昨日增长率超过设定的阈值时,触发告警。

    参数配置

    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。

    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。

    • 增长率阈值:过去5分钟内,当同一个Project出现Logtail采集错误数量同比昨日增长率大于该阈值时,触发告警。

    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。

    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。

    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。

  • 同一Logstore下的Logtail采集错误数监控

    项目

    说明

    作用

    监控Logtail采集错误的数量。

    检测频率&检测时间范围

    每5分钟检测一次过去5分钟内的数据。

    触发条件

    过去5分钟内,当同一个Logstore出现Logtail采集错误数量超过设定的阈值时,触发告警。

    参数配置

    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。

    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。

    • 采集错误数量阈值:过去5分钟内,当同一个Logstore出现Logtail采集错误数量大于该阈值时,触发告警。

    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。

    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。

    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。

  • 同一Logstore下的Logtail采集错误数日同比监控

    项目

    说明

    作用

    监控Logtail采集错误数量的日同比变化情况。

    检测频率&检测时间范围

    每5分钟检测一次过去5分钟内的数据。

    触发条件

    过去5分钟内,当同一个Logstore出现Logtail采集错误数量同比昨日增长率超过设定的阈值时,触发告警。

    参数配置

    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。

    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。

    • 增长率阈值:过去5分钟内,当同一个Logstore出现Logtail采集错误数量同比昨日增长率大于该阈值时,触发告警。

    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。

    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。

    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/163014.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云日志服务SLS使用RAM用户创建告警-云淘科技

    本视频介绍为阿里云RAM用户授予告警操作权限和使用RAM用户创建告警的基本步骤。 内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家阿里云企业补贴进行中: 马上申请腾讯云限时活动1折起,即将结束: 马上收藏同尘科技为腾讯云授权服务中心。 购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

    阿里云日志服务SLS 2023年12月10日
  • 阿里云对象存储OSSPython生命周期-云淘科技

    OSS支持设置Bucket生命周期(Lifecycle)规则,自动删除过期的文件(Object)和碎片,或将到期的文件转储为低频或归档存储类型,从而节省存储费用。本文介绍如何管理存储空间(Bucket)的生命周期规则。 注意事项 本文以华东1(杭州)外网Endpoint为例。如果您希望通过与OSS同地域的其他阿里云产品访问OSS,请使用内网Endpoint。…

    阿里云对象存储 2023年12月10日
  • 阿里云日志服务SLS合并集合去重机制-云淘科技

    告警管理系统接收到告警后,按照路由合并策略对符合条件的告警进行合并分组,并归到合并集合中。合并集合在经过抑制、静默、去重等操作后,被发送到行动(通知)管理系统中进行告警通知。 路由合并规则 告警路由合并基于合并基准、行动策略、首次等待时间、变化等待时间和重复等待时间完成。只有上述配置完全相同时,才会被归到同一个合并集合中。 例如某服务中的2个主机分别从20:…

    2023年12月10日
  • 阿里云日志服务SLS自定义分析告警日志-云淘科技

    日志服务以日志形式记录告警的整个生命周期,并存储到专属的Logstore中。您可以通过告警日志,了解监控对象的整体状况、稳定性等。本文介绍在专属Logstore中进行告警日志自定义分析的操作步骤。 背景信息 在首次使用日志服务告警时,系统会提示您选择一个地域,并自动在该地域创建日志服务资源,即在您所选的地域创建一个名为sls-alert-主账号ID-区域的P…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS配置用户标识-云淘科技

    本文介绍如何在服务器上配置阿里云账号(主账号)ID为用户标识。 前提条件 已有可用的服务器。 此处的服务器是指与日志服务属于不同账号的ECS、其他云厂商的服务器或自建IDC。 已在服务器上安装Logtail。更多信息,请参见安装Logtail(Linux系统)、安装Logtail(Windows系统)。 背景信息 如果您的服务器是与日志服务属于不同账号的EC…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。