详情页标题前

阿里云日志服务SLS容器服务-云淘科技

详情页1

本文介绍用于监控ACK集群的内置告警监控规则。

在容器服务侧开启告警功能后,容器服务会将ACK集群的事件日志存储到日志服务目标Project下名为k8s-event的Logstore中,并将其内置告警监控规则同步到日志服务告警中心,用于监控该Logstore。

ACK内置告警监控规则列表如下表所示。如果您对告警监控规则有更多定制化需求,可创建自定义的告警监控规则。具体操作,请参见创建日志告警监控规则。

告警监控规则ID 告警监控规则名称 说明 查询和分析语句 触发条件 分组评估
sls_app_ack_ccm_at_add_node_fail 添加节点失败 每5分钟检查一次,触发条件为存在添加节点失败的事件(kubernetes add node failed)。 eventId.reason : AddNodeFailed | SELECT ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace"
as namespace, "eventId.involvedObject.name" as node_name, COUNT(*) as cnt from log
GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_ccm_at_create_route_fail 创建路由失败 每5分钟检查一次,触发条件为存在创建路由失败的事件(kubernetes create route failed)。 eventId.reason : CreateRouteFailed | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.name" as node_name,
COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_ccm_at_del_node_fail 删除节点失败 每5分钟检查一次,触发条件为存在删除节点失败的事件(kubernetes delete node failed) eventId.reason : DeleteNodeFailed | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.name" as node_name,
COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_ccm_at_del_slb_fail 删除LoadBalancer失败 每5分钟检查一次,触发条件为存在删除LoadBalancer失败的事件(kubernetes slb delete failed)。 eventId.reason : DeleteLoadBalancerFailed | SELECT ARRAY_AGG("eventId.message") as
message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.kind"
as kind, "eventId.involvedObject.name" as object_name, COUNT(*) as cnt from log GROUP
by namespace, kind, object_name
有数据匹配,cnt > 0 标签自定义:namespace、kind、object_name
sls_app_ack_ccm_at_no_ava_slb 无可用LoadBalancer 每5分钟检查一次,触发条件为存在无可用LoadBalancer的事件(kubernetes slb not available)。 eventId.reason : UnAvailableLoadBalancer | SELECT ARRAY_AGG("eventId.message") as
message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.kind"
as kind, "eventId.involvedObject.name" as object_name, COUNT(*) as cnt from log GROUP
by namespace, kind, object_name
有数据匹配,cnt > 0 标签自定义:namespace、kind、object_name
sls_app_ack_ccm_at_sync_route_fail 同步路由失败 每5分钟检查一次,触发条件为存在同步路由失败的事件(kubernetes sync route failed)。 eventId.reason : SyncRouteFailed | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.name" as node_name,
COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_ccm_at_sync_slb_fail 同步LoadBalancer失败 每5分钟检查一次,触发条件为存在同步LoadBalancer失败的事件(kubernetes slb sync failed)。 eventId.reason : SyncLoadBalancerFailed | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.kind" as kind,
"eventId.involvedObject.name" as object_name, COUNT(*) as cnt from log GROUP by namespace,
kind, object_name
有数据匹配,cnt > 0 标签自定义:namespace、kind、object_name
sls_app_ack_csi_at_device_busy 挂载点正在被进程占用,卸载挂载点失败 每5分钟检查一次,触发条件为存在挂载点正在被进程占用,卸载挂载点失败的事件(kubernetes csi disk device busy)。 eventId.reason : DeviceBusy | SELECT ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace"
as namespace, "eventId.involvedObject.kind" as kind, "eventId.involvedObject.name"
as object_name, COUNT(*) as cnt from log GROUP by namespace, kind, object_name
有数据匹配,cnt > 0 标签自定义:namespace、kind、object_name
sls_app_ack_csi_at_disk_iohang 云盘Hang 每5分钟检查一次,触发条件为存在云盘IOHang的事件(kubernetes csi ioHang)。 eventId.reason : DeviceBusy | SELECT ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace"
as namespace, "eventId.involvedObject.kind" as kind, "eventId.involvedObject.name"
as object_name, COUNT(*) as cnt from log GROUP by namespace, kind, object_name
有数据匹配,cnt > 0 标签自定义:namespace、kind、object_name
sls_app_ack_csi_at_disk_no_portable 容器数据卷暂不支持包年包月类型云盘 每5分钟检查一次,触发条件为存在容器数据卷暂不支持包年包月类型云盘的事件(kubernetes csi not protable) eventId.reason : ProvisioningFailed and eventId.message : DiskNotPortable| SELECT
ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace" as namespace,
"eventId.involvedObject.kind" as kind, "eventId.involvedObject.name" as object_name,
COUNT(*) as cnt from log GROUP by namespace, kind, object_name
有数据匹配,cnt > 0 标签自定义: namespace、kind、object_name
sls_app_ack_csi_at_invalid_disk_size 云盘大小不符合云盘规定,少于20Gi 每5分钟检查一次,触发条件为存在云盘大小不符合云盘规定,少于20Gi的事件(kubernetes csi invalid disk size)。 eventId.reason : ProvisioningFailed and eventId.message : InvalidDiskSize| SELECT
ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace" as namespace,
"eventId.involvedObject.kind" as kind, "eventId.involvedObject.name" as object_name,
COUNT(*) as cnt from log GROUP by namespace, kind, object_name
有数据匹配,cnt > 0 标签自定义: namespace、kind、object_name
sls_app_ack_csi_at_latency_too_high 磁盘绑定的pvc发生slowIO 每5分钟检查一次,触发条件为存在磁盘绑定的pvc发生slowIO的事件(kubernetes csi pvc latency load too high)。 eventId.reason : LatencyTooHigh | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.kind" as kind,
"eventId.involvedObject.name" as object_name, COUNT(*) as cnt from log GROUP by namespace,
kind, object_name
有数据匹配,cnt > 0 标签自定义:namespace、kind、object_name
sls_app_ack_csi_at_no_ava_disk 无可用云盘 每5分钟检查一次,触发条件为存在无可用云盘的事件(kubernetes csi no available disk)。 eventId.reason : ResourceInvalid and eventId.message : "get disk"| SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.kind"
as kind, "eventId.involvedObject.name" as object_name, COUNT(*) as cnt from log GROUP
by namespace, kind, object_name
有数据匹配,cnt > 0 标签自定义:namespace、kind、object_name
sls_app_ack_csi_at_no_enough_disk_space 磁盘容量超过水位阈值 每5分钟检查一次,触发条件为存在磁盘容量超过水位阈值的事件(kubernetes csi not enough disk space)。 eventId.reason : NotEnoughDiskSpace| SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.kind" as kind,
"eventId.involvedObject.name" as object_name, COUNT(*) as cnt from log GROUP by namespace,
kind, object_name
有数据匹配,cnt > 0 标签自定义:namespace、kind、object_name
sls_app_ack_common_at_docker_hung 集群节点docker进程异常 每5分钟检查一次,触发条件为存在集群节点docker进程异常的事件(kubernetes node docker hang)。 eventId.reason:DockerHung or eventId.reason: "docker daemon is offline" | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_common_at_common_err K8s通用Error警示事件 每5分钟检查一次,触发条件为存在集群通用Error警示事件(kubernetes cluster error event)。 level : Error | SELECT ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace"
as namespace, "eventId.involvedObject.kind" as kind, "eventId.involvedObject.name"
as object_name, COUNT(*) as cnt from log GROUP by namespace, kind, object_name
有数据匹配,cnt > 0 标签自定义:namespace、kind、object_name
sls_app_ack_common_at_eviction 集群驱逐事件 每5分钟检查一次,触发条件为存在集群驱逐事件(kubernetes eviction event)。 * | SELECT ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace" as
namespace, "eventId.involvedObject.name" as node_name, COUNT(*) as cnt from log where
"eventId.reason" like '%Evict%' GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义: namespace、node_name
sls_app_ack_common_at_gpu_xid_error 集群GPU的XID错误事件 每5分钟检查一次,触发条件为存在集群GPU的XID错误事件(kubernetes gpu xid error event)。 eventId.reason : NodeHasNvidiaXidError | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.name" as node_name,
COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_common_at_k8s_image_pull_fail 集群镜像拉取失败 每5分钟检查一次,触发条件为存在集群镜像拉取失败事件(kubernetes image pull back off event)。 eventId.reason : Failed and eventId.message : ImagePullBackOff | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as pod_name, hostname as node_name, COUNT(*) as cnt from log GROUP by namespace, pod_name,
node_name
有数据匹配,cnt > 0 标签自定义:namespace、pod_name、node_name
sls_app_ack_ingress_at_err_reload_nginx Ingress重载配置失败 每5分钟检查一次,触发条件为存在Ingress重载配置失败事件(kubernetes ingress reload config error)。 eventId.reason : RELOAD and eventId.message : "Error reloading NGINX" | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as pod_name, hostname as node_name, COUNT(*) as cnt from log GROUP by namespace, pod_name,
node_name
有数据匹配,cnt > 0 标签自定义:namespace、pod_name、node_name
sls_app_ack_common_at_k8s_no_ip 集群节点IP资源不足 每5分钟检查一次,触发条件为存在集群节点IP资源不足事件(kubernetes ip not enough event)。 InvalidVSwitchId.IpNotEnough or IpNotEnough | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义: namespace、node_name
sls_app_ack_nlc_at_destr_node_fail 托管节点池销毁节点发生错误 每5分钟检查一次,触发条件为存在托管节点池销毁节点发生错误的事件(kubernetes node pool nlc destory node failed)。 eventId.reason : "NLC.Task.DestroyNode.Fail" | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_nlc_at_drain_node_fail 托管节点池节点排水失败 每5分钟检查一次,触发条件为存在托管节点池节点排水失败的事件(kubernetes node pool nlc drain node failed)。 eventId.reason : "NLC.Task.DrainNode.Fail" | SELECT ARRAY_AGG("eventId.message") as
message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_nlc_at_emp_task_cmd 托管节点池未提供任务的具体命令 每5分钟检查一次,触发条件为存在托管节点池未提供任务的具体命令的事件(kubernetes node pool nlc delete node failed: EmptyTaskCommand)。 eventId.reason : "NLC.Task.EmptyTaskCommand" | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义: namespace、node_name
sls_app_ack_nlc_at_op_not_found 托管节点池发生未知的修复操作 每5分钟检查一次,触发条件为存在托管节点池发生未知的修复操作的事件(kubernetes node pool nlc delete node failed: Task.Operation.NotFound)。 eventId.reason : "NLC.Task.Operation.NotFound" | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_nlc_at_repair_fail 托管节点池自愈任务失败 每5分钟检查一次,触发条件为存在托管节点池自愈任务失败的事件(kubernetes node pool nlc self repair failed)。 eventId.reason : "NLC.AutoRepairTask.Fail" | SELECT ARRAY_AGG("eventId.message") as
message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_nlc_at_reset_ecs_fail 托管节点池重置ECS失败 每5分钟检查一次,触发条件为存在托管节点池重置ECS失败的事件(kubernetes node pool nlc reset ecs failed)。 eventId.reason : "NLC.Task.ResetECS.Fail" | SELECT ARRAY_AGG("eventId.message") as
message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_nlc_at_restart_ecs_fail 托管节点池重启ECS失败 每5分钟检查一次,触发条件为存在托管节点池重启ECS失败的事件(kubernetes node pool nlc restart ecs failed)。 eventId.reason : "NLC.Task.RestartECS.Fail" | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_nlc_at_restart_ecs_wait_fail 托管节点池重启ECS未达到终态 每5分钟检查一次,触发条件为存在托管节点池重启ECS未达到终态的事件(kubernetes node pool nlc restart ecs wait timeout)。 eventId.reason : "NLC.Task.RestartECS.WaitNodeReady.Fail" | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_nlc_at_runcommand_fail 托管节点池命令执行失败 每5分钟检查一次,触发条件为存在托管节点池命令执行失败的事件(kubernetes node pool nlc run command failed)。 eventId.reason : "NLC.Task.RunCommand.Fail" | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_nlc_at_url_mode_unimpl 托管节点池出现未实现的任务模式 每5分钟检查一次,触发条件为存在托管节点池出现未实现的任务模式的事件(kubernetes nodde pool nlc delete node failed: Task.URL.Mode.Unimplemented)。 eventId.reason : "NLC.Task.URL.Mode.Unimplemented" | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_common_at_k8s_no_disk 集群节点磁盘空间不足 每5分钟检查一次,触发条件为存在集群节点磁盘空间不足的事件(kubernetes node disk pressure event)。 eventId.reason : NodeHasDiskPressure | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.name" as node_name,
COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_common_at_node_down 集群节点下线 每5分钟检查一次,触发条件为存在集群节点下线事件(kubernetes node down event)。 eventId.reason: NodeNotReady and eventId.message: "status is now: NodeNotReady" |
SELECT ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace" as namespace,
"eventId.involvedObject.name" as node_name, COUNT(*) as cnt from log GROUP by namespace,
node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_common_at_node_fd_pressure 集群节点文件句柄过多 每5分钟检查一次,触发条件为存在集群节点文件句柄过多的事件(kubernetes node fd pressure event)。 eventId.reason : NodeHasFDPressure | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.name" as node_name,
COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_common_at_node_pid_pressure 集群节点进程数过多 每5分钟检查一次,触发条件为存在集群节点进程数过多的事件(kubernetes node pid pressure event)。 eventId.reason : PIDPressure or eventId.reason : NodeHasPIDPressure | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_common_at_k8s_pleg_warn 集群节点PLEG异常 每5分钟检查一次,触发条件为存在集群节点PLEG异常事件(kubernetes node pleg error event)。 eventId.message : "PLEG is not healthy" | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.name" as node_name,
COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_common_at_node_restart 集群节点重启 每5分钟检查一次,触发条件为存在集群节点重启事件(kubernetes node restart event)。 eventId.reason : NodeRebooted or eventId.reason : Rebooted | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as node_name, COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_common_at_k8s_time_sync_err 集群节点时间服务异常 每5分钟检查一次,触发条件为存在集群节点时间服务异常事件(kubernetes node ntp down)。 eventId.reason : NTPIsDown | SELECT ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace"
as namespace, "eventId.involvedObject.name" as node_name, COUNT(*) as cnt from log
GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace,node_name
sls_app_ack_common_at_k8s_pod_start_fail 集群容器副本启动失败 每5分钟检查一次,触发条件为存在集群容器副本启动失败事件(kubernetes pod start failed event)。 eventId.reason : Failed and eventId.involvedObject.kind : Pod not eventId.message
: ImagePullBackOff | SELECT ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace"
as namespace, "eventId.involvedObject.name" as pod_name, hostname as node_name, COUNT(*)
as cnt from log GROUP by namespace, pod_name, node_name
有数据匹配,cnt > 0 标签自定义:namespace、pod_name、node_name
sls_app_ack_common_at_k8s_pod_oom 集群容器副本OOM 每5分钟检查一次,触发条件为存在集群容器副本OOM事件(kubernetes pod oom event)。 eventId.reason : PodOOMKilling | SELECT ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace"
as namespace, "eventId.involvedObject.name" as pod_name, hostname as node_name, COUNT(*)
as cnt from log GROUP by namespace, pod_name, node_name
有数据匹配,cnt > 0 标签自定义:namespace、pod_name、node_name
sls_app_ack_common_at_k8s_ps_hung 集群节点进程异常 每5分钟检查一次,触发条件为存在集群节点进程异常事件(kubernetes ps process hang event)。 eventId.reason : PSProcessIsHung | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.name" as node_name,
COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_common_at_no_resource 集群节点调度资源不足 每5分钟检查一次,触发条件为存在集群节点调度资源不足事件(kubernetes node resource insufficient)。 eventId.reason : FailedScheduling and Insufficient | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as pod_name, hostname as node_name, COUNT(*) as cnt from log GROUP by namespace, pod_name,
node_name
有数据匹配,cnt > 0 标签自定义:namespace、pod_name、node_name
sls_app_ack_si_at_conf_high_risk 安全巡检发现高危风险配置 每5分钟检查一次,触发条件为存在安全巡检发现高危风险配置的事件(kubernetes high risks have be found after running
config audit)。
eventId.reason : SecurityInspectorConfigAuditHighRiskFound | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.name"
as pod_name, hostname as node_name, COUNT(*) as cnt from log GROUP by namespace, pod_name,
node_name
有数据匹配,cnt > 0 标签自定义:namespace、pod_name、node_name
sls_app_ack_terway_at_alloc_ip_fail Terway分配IP失败 每5分钟检查一次,触发条件为存在Terway分配IP失败的事件(kubernetes terway allocate ip error)。 eventId.reason : AllocIPFailed | SELECT ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace"
as namespace, "eventId.involvedObject.name" as node_name, COUNT(*) as cnt from log
GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_terway_at_allocate_fail Terway分配网络资源失败 每5分钟检查一次,触发条件为存在Terway分配网络资源失败的事件(kubernetes allocate resource error)。 eventId.reason : AllocResourceFailed | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.name" as node_name,
COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_terway_at_config_check Terway触发PodIP配置检查 每5分钟检查一次,触发条件为存在Terway触发PodIP配置检查的事件(kubernetes terway execute pod ip config check)。 eventId.reason : ConfigCheck | SELECT ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace"
as namespace, "eventId.involvedObject.name" as pod_name, hostname as node_name, COUNT(*)
as cnt from log GROUP by namespace, pod_name, node_name
有数据匹配,cnt > 0 标签自定义:namespace、pod_name、node_name
sls_app_ack_terway_at_dispose_fail Terway回收网络资源失败 每5分钟检查一次,触发条件为存在Terway回收网络资源失败的事件(kubernetes dispose resource error)。 eventId.reason : DisposeResourceFailed | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.name" as node_name,
COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_terway_at_invalid_resource Terway资源无效 每5分钟检查一次,触发条件为存在Terway资源无效事件(kubernetes terway have invalid resource)。 eventId.reason : ResourceInvalid | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.name" as node_name,
COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_terway_at_parse_fail 解析Ingress带宽配置失败 每5分钟检查一次,触发条件为存在解析Ingress带宽配置失败事件(kubernetes terway parse k8s.aliyun.com/ingress-bandwidth
annotation error)。
eventId.reason : ParseFailed and eventId.message : "Parse ingress bandwidth failed"|
SELECT ARRAY_AGG("eventId.message") as message, "eventId.metadata.namespace" as namespace,
"eventId.involvedObject.name" as node_name, COUNT(*) as cnt from log GROUP by namespace,
node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_terway_at_vir_mode_change Terway虚拟模式变更 每5分钟检查一次,触发条件为存在Terway虚拟模式变更事件(kubernetes virtual mode changed)。 eventId.reason : VirtualModeChanged | SELECT ARRAY_AGG("eventId.message") as message,
"eventId.metadata.namespace" as namespace, "eventId.involvedObject.name" as node_name,
COUNT(*) as cnt from log GROUP by namespace, node_name
有数据匹配,cnt > 0 标签自定义:namespace、node_name
sls_app_ack_common_at_common_warn K8s通用Warn警示事件 每5分钟检查一次,触发条件为存在K8s通用Warn警示事件(kubernetes cluster warn event)。 level : Warning and not "Error updating Endpoint Slices for Service" and not (eventId.reason:
AccessACRApiFailed and eventId.message:USER_NOT_EXIST) and not eventId.reason: "CIS.ScheduleTask.Warning"
and not eventId.reason: "CIS.ScheduleTask.Fail" | SELECT ARRAY_AGG("eventId.message")
as message, "eventId.metadata.namespace" as namespace, "eventId.involvedObject.kind"
as kind, "eventId.involvedObject.name" as object_name, COUNT(*) as cnt from log GROUP
by namespace, kind, object_name
有数据匹配,cnt > 0 标签自定义:namespace、kind、object_name

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/163045.html

(0)
上一篇 2023年12月10日 上午4:53
下一篇 2023年12月10日 上午4:53
详情页2

相关推荐

  • 阿里云对象存储OSSSqoop以EMR集群的方式读写OSS-HDFS服务的数据-云淘科技

    本文介绍Sqoop如何以EMR集群的方式读写OSS-HDFS服务的数据。 前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群,并在创建时选择了Sqoop。具体步骤,请参见创建集群。 已开通并授权访问OSS-HDFS服务。具体操作,请参见开通并授权访问OSS-HDFS服务。 操作步骤 登录EMR集群。 登录EMR on ECS控…

    阿里云对象存储 2023年12月10日
  • 阿里云人工智能平台PAI创建集群-云淘科技

    本文为您介绍如何创建灵骏集群。 步骤一:创建集群分组 操作步骤 登录智能计算灵骏控制台。 在左侧导航栏,选择资源与节点> 集群管理。 单击一键创建集群,进入创建托管云集群页面。 单击基础灵骏集群服务卡片。 在集群信息区域,输入集群名称、节点的root密码、资源组等信息。 说明 集群名称由数字、英文字符、短划线(-)或下划线(_)组成,长度范围1~63个…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技

    DataWorks 提供了与CDH(Cloudera’s Distribution Including Apache Hadoop,以下简称CDH) 与CDP(Cloudera Data Platform,以下简称CDP)集群对接的能力,在保留CDH集群或CDP集群作为存储和计算引擎的前提下,您可以使用DataWorks的任务开发、调度、数据地图(元数据管理…

    2023年12月10日
  • 阿里云日志服务SLSGROUP BY子句-云淘科技

    GROUP BY子句用于结合聚合函数,根据一个或多个列对分析结果进行分组。GROUP BY子句还支持搭配ROLLUP子句、CUBE子句和GROUPING SETS子句,扩展分组功能。 语法 GROUP BY 对分析结果进行分组。 SELECT key, … aggregate function GROUP BY key,… GROUP BY ROLL…

    2023年12月10日
  • 阿里云日志服务SLS桑基图-云淘科技

    本文介绍桑基图操作步骤及案例。 简介 桑基图 (Sankey Diagram),是一种特定类型的流图,用于描述一组值到另一组值的流向。适合网络流量等场景,通常包含3组值source、target以及value。source和target描述了节点的关系,而value描述了该source和target之间边的关系。 基本构成如下: 节点 边 桑基图具有以下特点…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。