详情页标题前

阿里云日志服务SLS如何排查容器日志采集异常-云淘科技

详情页1

当您使用Logtail采集容器(标准容器、Kubernetes)日志时,如果采集状态异常,可以根据本文进行问题排查、运行状态检查等运维操作。

问题排查

  • 排查机器组心跳是否异常
  • 排查容器日志采集是否异常

排查机器组心跳是否异常

您可以通过检查机器组心跳的状态来判断容器中的Logtail是否已正确安装。

  1. 查看机器组心跳状态。
    1. 登录日志服务控制台。
    2. 在Project列表区域,单击目标Project。
    3. 在左侧导航栏中,选择资源 > 机器组。
    4. 在机器组列表中,单击目标机器组。
    5. 在机器组配置页面,查看机器组状态并记录心跳状态为OK的节点数。
  2. 检查容器集群中Worker节点数。
    1. 登录容器集群。
    2. 执行如下命令,查看集群中Worker节点数。
      kubectl get node | grep -v master

      系统将返回如下类似结果。

      NAME                                 STATUS    ROLES     AGE       VERSION
      cn-hangzhou.i-bp17enxc2us3624wexh2   Ready         238d      v1.10.4
      cn-hangzhou.i-bp1ad2b02jtqd1shi2ut   Ready         220d      v1.10.4
  3. 对比心跳状态为OK的节点数是否和容器集群中Worker节点数一致。根据对比结果选择排查方式。
    • 机器组中所有节点的心跳状态均为Failed。
      • 如果您要采集标准Docker容器日志,请参见参数说明,检查${your_region_name}${your_aliyun_user_id}${your_machine_group_user_defined_id}是否填写正确。
      • 如果您使用的是阿里云Kubernetes集群,请提交工单,进行排查。
      • 如果您使用的是自建Kubernetes集群,请参见参数说明,检查{your-project-suffix}{regionId}{aliuid}{access-key-id}{access-key-secret}是否已正确填写。

        如果填写错误,请执行helm del --purge alibaba-log-controller命令,删除安装包,然后重新安装。

    • 机器组心跳状态为OK的节点数量少于集群中的Worker节点数量。
      • 判断是否已使用YAML文件手动部署DaemonSet。
        1. 执行如下命令。如果存在返回结果,则表示您之前已使用YAML文件手动部署DaemonSet。
          kubectl get po -n kube-system -l k8s-app=logtail
        2. 下载最新版本DaemonSet模板。
        3. 根据实际值,配置${your_region_name}${your_aliyun_user_id}${your_machine_group_name}等参数。
        4. 执行如下命令,更新文件。
          kubectl apply -f ./logtail-daemonset.yaml
      • 其他情况,请提交工单。

排查容器日志采集是否异常

如果您在日志服务控制台的
预览或Logstore查询页面未查到日志,则说明日志服务未采集到您的容器日志。请确认容器状态后,执行如下检查。

重要

  • 采集容器文件中的日志时,需注意如下事项。
    • Logtail只采集增量日志。如果下发Logtail配置后,日志文件无更新,则Logtail不会采集该文件中的日志。更多信息,请参见读取文件。
    • 只支持采集容器默认存储或挂载到本地的文件中的日志,暂不支持其他存储方式。
  • 采集到日志后,您需要先创建索引,才能在Logstore中查询和分析日志。具体操作,请参见创建索引。
  1. 查看机器组心跳是否存在异常。具体操作,请参见排查机器组心跳是否异常。
  2. 检查Logtail配置是否正确。

    检查Logtail配置中的
    IncludeLabel、
    ExcludeLabel、
    IncludeEnv、
    ExcludeEnv等配置是否符合您的采集需求。

    说明

    • 其中此处的Label为容器Label,即Docker inspect中的Label,不是Kubernetes中的Label。
    • 您可以将IncludeLabel、ExcludeLabel、IncludeEnv和ExcludeEnv配置临时去除,查看是否可以正常采集到日志。如果可以,则说明是上述参数的配置存在问题。

其他运维操作

  • 登录Logtail容器
  • 查看Logtail的运行日志
  • Logtail的容器标准输出说明
  • 查看Kubernetes集群中日志相关组件状态
  • 查看Logtail的版本号信息、IP地址、启动时间
  • 误删CRD创建的Logstore后,如何处理

登录Logtail容器

  • 普通Docker
    1. 在宿主机上执行如下命令,查询Logtail容器。
      docker ps | grep logtail

      系统将返回如下类似结果。

      223****6e        registry.cn-hangzhou.aliyuncs.com/log-service/logtail                             "/usr/local/ilogta..."   8 days ago          Up 8 days                               logtail-iba
    2. 执行如下命令,登录Logtail容器。
      docker exec -it 223****6e  bash

      其中,223****6e为容器ID,请根据实际值替换。

  • Kubernetes
    1. 执行如下命令,查询Logtail的Pod。
      kubectl get po -n kube-system | grep logtail

      系统将返回如下类似结果。

      logtail-ds-****d                                             1/1       Running    0          8d
      logtail-ds-****8                                             1/1       Running    0          8d
    2. 执行如下命令,登录Pod。
      kubectl exec -it -n kube-system logtail-ds-****d bash

      其中,logtail-ds-****d为Pod ID,请根据实际值替换。

查看Logtail的运行日志

Logtail日志存储在Logtail容器中的/usr/local/ilogtail/目录中,文件名为ilogtail.LOG和logtail_plugin.LOG。

  1. 登录Logtail容器。具体操作,登录Logtail容器。
  2. 打开/usr/local/ilogtail/目录。
    cd /usr/local/ilogtail
  3. 查看ilogtail.LOG和logtail_plugin.LOG文件。
    cat ilogtail.LOG
    cat logtail_plugin.LOG

Logtail容器的标准输出(stdout)说明

Logtail容器中的标准输出并不具备参考意义,请忽略以下标准输出内容。

start umount useless mount points, /shm$|/merged$|/mqueue$
umount: /logtail_host/var/lib/docker/overlay2/3fd0043af174cb0273c3c7869500fbe2bdb95d13b1e110172ef57fe840c82155/merged: must be superuser to unmount
umount: /logtail_host/var/lib/docker/overlay2/d5b10aa19399992755de1f85d25009528daa749c1bf8c16edff44beab6e69718/merged: must be superuser to unmount
umount: /logtail_host/var/lib/docker/overlay2/5c3125daddacedec29df72ad0c52fac800cd56c6e880dc4e8a640b1e16c22dbe/merged: must be superuser to unmount
......
xargs: umount: exited with status 255; aborting
umount done
start logtail
ilogtail is running
logtail status:
ilogtail is running

查看Kubernetes集群中日志服务相关组件的状态

执行如下命令进行查看。

kubectl get deploy alibaba-log-controller -n kube-system
kubectl get ds logtail-ds -n kube-system

查看Logtail的版本号、IP地址、启动时间

  1. 登录Logtail容器。具体操作,请参见登录Logtail容器。
  2. 执行如下命令,查看Logtail的版本号、IP地址、启动时间。

    相关信息存储在Logtail容器的/usr/local/ilogtail/app_info.json文件中。

    kubectl exec logtail-ds-****k -n kube-system cat /usr/local/ilogtail/app_info.json

    系统将返回如下类似结果。

    {
       "UUID" : "",
       "hostname" : "logtail-****k",
       "instance_id" : "0EB****_172.20.4.2_1517810940",
       "ip" : "172.20.4.2",
       "logtail_version" : "0.16.2",
       "os" : "Linux; 3.10.0-693.2.2.el7.x86_64; #1 SMP Tue Sep 12 22:26:13 UTC 2017; x86_64",
       "update_time" : "2018-02-05 06:09:01"
    }

误删由CRD创建的Logstore后,如何处理

如果您删除了由CRD自动创建出的Logstore,则已采集的数据无法恢复,并且针对此Logstore的CRD配置会失效,您可以选择以下方案避免日志采集异常。

  • 在CRD配置中使用其他Logstore,避免使用手动误删的Logstore。
  • 重启alibaba-log-controller Pod。

    您可通过如下命令查找该Pod。

    kubectl get po -n kube-system | grep alibaba-log-controller

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/162877.html

(0)
上一篇 2023年12月10日 上午4:43
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云容器服务ACK产品计费-云淘科技

    阿里云容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)支持创建不同类型的Kubernetes集群,不同类型集群的计费标准不同。本文提供容器服务 Kubernetes 版不同集群类型的计费索引。 通常情况下,容器服务 Kubernetes 版可能会产生三部分费用:集群管理费用、节点管理费用以及使用其…

    阿里云容器服务 2023年12月10日
  • 阿里云日志服务SLS为定时SQL任务设置告警-云淘科技

    日志服务定时SQL已内置监控规则模板,您只需添加对应的告警实例即可实时监控定时SQL任务,并可通过钉钉等渠道接收到告警通知。本文介绍设置告警的相关操作。 前提条件 已创建定时SQL任务。 如果是将源Logstore中的数据通过定时SQL处理后存储到目标Logstore,请参见从Logstore到Logstore。 如果是将源Logstore中的数据通过定时S…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS消费-计量计费日志-云淘科技

    使用云服务最大好处是按量付费,无需预留资源,因此各云产品都有计量计费需求。本文介绍一种基于日志服务按量计费方案,该方案每天处理千亿级计量日志,被众多云产品使用。 计量日志生成计费结果过程 计量日志记录了您所涉及计费的项目,后端计费模块根据计费项和规则进行运算,产生最后账单。例如如下原始访问日志记录了项目(Project)使用情况: microtime:145…

    2023年12月10日
  • 阿里云日志服务SLS使用前须知-云淘科技

    阿里云操作审计(ActionTrail)联合日志服务推出平台操作日志(Inner-ActionTrail)功能,提供平台操作日志的实时采集、查询、分析、加工、消费等一站式服务,满足您平台操作日志相关的分析与审计需求。本文介绍平台操作日志相关的资产详情、费用说明及使用限制等。 说明 目前,平台操作日志功能支持采集对象存储OSS的平台操作日志、云服务器ECS的平…

    阿里云日志服务SLS 2023年12月10日
  • 阿里云日志服务SLS使用前须知-云淘科技

    阿里云弹性公网(Elastic IP Address,简称EIP)联合日志服务推出高精度秒级监控功能,以日志形式将高精度网络带宽监控数据推送到日志服务,帮助您实时监控互联网业务流量变化,及时调整弹性公网IP的带宽峰值。本文介绍弹性公网IP日志相关的资产详情、费用说明以及使用限制。 功能介绍 EIP承载了海量的互联网BGP流量,互联网BGP流量对实时性有较高的…

    阿里云日志服务SLS 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。