日志服务已内置告警监控规则,您只需开启对应的告警实例即可实时监控Logtail,并可通过钉钉等渠道接收到告警通知。本文介绍使用Logtail内置告警监控规则的操作步骤。
前提条件
已为目标Project开启重要日志功能。具体操作,请参见开通服务日志。
背景信息
当您为目标Project开启重要日志功能后,日志服务会自动在您所选择的Project下创建一个名为internal-diagnostic_log的Logstore,用于记录Logtail心跳日志。日志服务基于该日志预设了Logtail告警监控规则,用于实时监控Logtail。
步骤一:配置行动策略
Logtail内置告警监控规则默认绑定SLS Logtail内置行动策略,因此您在开启告警实例前,需先在该行动策略中设置对应的通知渠道。
-
登录日志服务控制台。
-
在Project列表中,找到目标Project。
该Project为您在开启重要日志时,所选择的Project。
-
在左侧导航栏中,单击告警。
-
在告警中心页面,选择告警管理 > 行动策略。
-
在行动策略列表中,找到目标行动策略(sls.app.logtail.builtin),单击修改。
您也可以创建新的行动策略用于告警通知。具体操作,请参见创建行动策略。
-
在编辑行动策略对话框中,将请求地址修改为钉钉群机器人的Webhook地址。其他选项,保持默认配置。然后单击确认。
如何获取钉钉群机器人的Webhook地址,请参见钉钉-自定义。您也可以根据业务需求,使用其他告警渠道。具体操作,请参见通知渠道说明。
步骤二:开启告警实例
日志服务已内置多种告警监控规则,您只需根据业务需求,开启对应的告警实例即可。
-
在告警中心页面,单击规则/事务。
-
在规则/事务页签中,单击SLS Logtail。
-
在告警监控规则列表中,单击目标告警监控规则对应的开启。
每个告警监控规则已预设参数,您可以直接单击开启。如果您要修改参数设置,可单击设置,进行修改。关于参数说明的更多信息,请参见Logtail告警监控规则。
Logtail告警监控规则
日志服务已内置如下告警监控规则,用于监控Logtail。
-
Logtail重启告警
-
Logtail采集延迟告警
-
Logtail Quota超限告警
-
Logtail日志解析错误告警
-
同一Project下的Logtail采集错误数监控
-
同一Project下的Logtail采集错误数日同比监控
-
同一Logstore下的Logtail采集错误数监控
-
同一Logstore下的Logtail采集错误数日同比监控
-
Logtail重启告警
项目
说明
作用
监控Logtail的重启行为。
检测频率&检测时间范围
每5分钟检测一次过去5分钟内的数据。
触发条件
过去5分钟内,当同一个客户端出现Logtail重启次数超过设定的阈值时,触发告警。
参数配置
-
行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
-
重启次数阈值(严重):过去5分钟内,当同一个客户端出现Logtail重启次数大于该阈值时,则触发严重级别的告警。默认值为3。
-
重启次数阈值(高):过去5分钟内,当同一个客户端出现Logtail重启次数大于该阈值时,则触发高级别的告警。默认值为1。
-
静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
-
恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
-
连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
-
-
Logtail采集延迟告警
项目
说明
作用
监控Logtail的采集延迟。
检测频率&检测时间范围
每5分钟检测一次过去5分钟内的数据。
触发条件
过去5分钟内,当有Logstore出现Logtail采集延迟时,触发告警。
参数配置
-
行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
-
严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
-
静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
-
恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
-
连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
-
-
Logtail Quota超限告警
项目
说明
作用
监控Logtail Quota超限情况。
检测频率&检测时间范围
每5分钟检测一次过去5分钟内的数据。
触发条件
过去5分钟内,当有Logstore出现因Quota超限导致Logtail发送数据失败时,触发告警。
参数配置
-
行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
-
严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
-
静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
-
恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
-
连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
-
-
Logtail日志解析错误告警
项目
说明
作用
监控Logtail日志解析错误的异常。
检测频率&检测时间范围
每5分钟检测一次过去5分钟内的数据。
触发条件
过去5分钟内,当有Logstore出现Logtail日志解析错误时,触发告警。
参数配置
-
行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
-
严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
-
静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
-
恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
-
连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
-
-
同一Project下的Logtail采集错误数监控
项目
说明
作用
监控Logtail采集错误的数量。
检测频率&检测时间范围
每5分钟检测一次过去5分钟内的数据。
触发条件
过去5分钟内,当同一个Project出现Logtail采集错误数量超过设定的阈值时,触发告警。
参数配置
-
行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
-
严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
-
采集错误数量阈值:过去5分钟内,当同一个Project出现Logtail采集错误数量大于该阈值时,触发告警。
-
静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
-
恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
-
连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
-
-
同一Project下的Logtail采集错误数日同比监控
项目
说明
作用
监控Logtail采集错误数量的日同比变化情况。
检测频率&检测时间范围
每5分钟检测一次过去5分钟内的数据。
触发条件
过去5分钟内,当同一个Project出现Logtail采集错误数量同比昨日增长率超过设定的阈值时,触发告警。
参数配置
-
行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
-
严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
-
增长率阈值:过去5分钟内,当同一个Project出现Logtail采集错误数量同比昨日增长率大于该阈值时,触发告警。
-
静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
-
恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
-
连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
-
-
同一Logstore下的Logtail采集错误数监控
项目
说明
作用
监控Logtail采集错误的数量。
检测频率&检测时间范围
每5分钟检测一次过去5分钟内的数据。
触发条件
过去5分钟内,当同一个Logstore出现Logtail采集错误数量超过设定的阈值时,触发告警。
参数配置
-
行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
-
严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
-
采集错误数量阈值:过去5分钟内,当同一个Logstore出现Logtail采集错误数量大于该阈值时,触发告警。
-
静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
-
恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
-
连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
-
-
同一Logstore下的Logtail采集错误数日同比监控
项目
说明
作用
监控Logtail采集错误数量的日同比变化情况。
检测频率&检测时间范围
每5分钟检测一次过去5分钟内的数据。
触发条件
过去5分钟内,当同一个Logstore出现Logtail采集错误数量同比昨日增长率超过设定的阈值时,触发告警。
参数配置
-
行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
-
严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
-
增长率阈值:过去5分钟内,当同一个Logstore出现Logtail采集错误数量同比昨日增长率大于该阈值时,触发告警。
-
静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
-
恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
-
连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
-
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家
阿里云企业补贴进行中: 马上申请
腾讯云限时活动1折起,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠
转转请注明出处:https://www.yunxiaoer.com/163014.html