详情页标题前

阿里云日志服务SLS基本概念-云淘科技

详情页1

本文档主要介绍数据加工功能的一些基本概念。

基本概念

  • ETL

    ETL是指将对业务系统的数据进行抽取、清洗、转换、加载的过程,从而整合零散、不标准、不统一的数据。日志服务支持加载源Logstore数据,将数据转换后输出到目标Logstore,同时也支持加载OSS、RDS或其他Logstore的数据。

  • 事件、数据、日志

    在数据加工功能中,事件、数据都表示日志,例如事件时间就是日志时间,丢弃事件字段函数drop_event_fields就是用于丢弃特定日志字段的函数。

  • 日志时间

    日志时间指事件所发生的时间,也称事件时间。在日志服务中的保留字段为__time__,一般由日志中的时间信息直接提取生成。数据类型为整数字符串,Unix标准时间格式,单位为秒,表示从1970-1-1 00:00:00 UTC计算起的秒数。

  • 日志接收时间
    日志到达日志服务的服务器被接收时的时间,默认不保存在日志中,但是如果Logstore开启了记录外网IP地址,则该时间会保留在日志标签字段的__receive_time__中。数据加工中时间的完整字段名是__tag__:__receive_time__。数据类型为整型,Unix标准时间格式。单位为秒,表示从1970-1-1 00:00:00 UTC计算起的秒数。


    说明 大部分场景下,日志是实时发送给日志服务的,因此日志时间与日志接收时间基本相同。如果是导入历史日志的情况,例如通过SDK导入过去30天的日志,那么日志接收时间就是当前时间,和日志时间不一致。

  • 日志标签
    日志存在标记,区别于其他字段,在数据加工中,标签字段以__tag__:作为前缀。包括:

    • 用户自定义标签:用户通过API PutLogs写入数据时添加的标签。
    • 系统标签:日志服务为用户添加的标签,包括__client_ip____receive_time__

配置相关概念

  • 源Logstore

    数据加工中,从中读取数据再进行加工的Logstore是源Logstore。

    一个加工任务仅支持一个源Logstore,但可以对一个源Logstore配置多个加工任务。

  • 目标Logstore

    数据加工中,数据写入的Logstore是目标Logstore。

    一个加工任务可以配置多个目标Logstore,可以是静态配置,也可以是动态配置。具体配置方法,请参见多目标Logstore数据分发。

  • SLS DSL

    SLS DSL(Domain Specific Language)是日志服务数据加工使用的一种Python兼容的脚本语言。SLS DSL基于Python提供内置两百多个函数,简化常见的数据加工模式。也支持用户自定义的扩展Python脚本。更多信息,请参见语言简介。

  • 加工规则

    数据加工脚本,SLS DSL编排的逻辑代码的集合。

  • 加工任务

    数据加工最小调度单元,由源Logstore、目标Logstore、加工规则、加工时间范围以及其他配置项组成。

规则相关概念

  • 资源

    除源Logstore外,数据加工中做某些配置或者富化引用的第三方数据源叫做资源,包括但不限于本地资源,OSS,RDS,其他Logstore(除源和目标Logstore外)等。更多信息,请参见资源函数。

  • 维表

    用于做富化的数据的某些维度信息的外部表格叫做维表。例如公司用户账户列表、产品列表、地理位置信息库等。维表一般存在于资源中,可能会动态更新。

  • 富化/映射

    日志包含的信息不完整时,需要借助外部信息进行完善,对日志的一个或多个字段通过映射完善出更多信息的过程叫做富化或者映射。

    例如某个请求包含HTTP状态码status,可以通过如下表格富化出新字段HTTP状态描述status_desc:

    富化前 富化后
    status status_desc
    200 成功
    300 跳转
    400 权限错误
    500 服务器错误

    或者源数据中有user_id字段,使用外部账户维表,映射出其对应用户名、性别、注册时间、邮箱等信息,放入到日志字段中并写入目标Logstore中。更多信息,请参见映射富化函数。

  • 分裂

    日志信息比较复杂,同时包含多条信息时,将一条日志分裂成多条日志的过程叫做事件分裂。

    例如某一条日志的字段内容如下:

    __time__: 1231245
    __topic: "win_logon_log"
    content: 
    [ {
      "source": "192.0.2.1",
      "dest": "192.0.2.1"
      "action": "login",
      "result": "pass"
    },{
      "source": "192.0.2.2",
      "dest": "192.0.2.1"
      "action": "logout",
      "result": "pass"
    }
    ]

    可以分裂成如下2条日志:

    __time__: 1231245
    __topic: "win_logon_log"
    content: 
    {
      "source": "192.0.2.1",
      "dest": "192.0.2.1"
      "action": "login",
      "result": "pass"
    }
    __time__: 1231245
    __topic: "win_logon_log"
    content: 
    {
      "source": "192.0.2.2",
      "dest": "192.0.2.1"
      "action": "logout",
      "result": "pass"
    }
  • GROK

    使用模式化语法代替复杂的正则表达式。

    例如:grok("%{IPV4}")表示一个匹配IPv4的正则表达式,等价于"(?<![0-9])(?:(?:[0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])[.](?:[0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])[.](?:[0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])[.](?:[0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(?![0-9])"。更多信息,请参见GROK函数。

  • 正则捕获

    通过正则表达式捕获指定内容并直接进行命名,可以更直观地配置提取的字段名。

    例如e_regex("content", "(?P[a-zA-Z][a-zA-Z0-9_.+-=:]+@\w+\.com)")表示提取字段content中的邮件地址并放入字段email中。这里邮件是一个通用正则表达式,推荐使用GROK进行简化:e_regex("content", grok("%{EMAILADDRESS:email}"))。更多信息,请参见正则表达式。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/162659.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云日志服务SLS拓扑图-云淘科技

    本文介绍拓扑图的相关配置。 简介 拓扑图是一种全局系统级别的观测视图,用于直观地描述模块或应用之间的依赖关系以及总体概况信息。 日志服务采集到拓扑数据后,会解析数据并将其结构化,拓扑数据样例如下图所示。您可以通过child、parent字段粗略获得不同模块或应用之间的依赖关系,但并不直观。 针对上述拓扑数据,日志服务支持您通过查询和分析语句获取描述拓扑关系的…

    阿里云日志服务SLS 2023年12月10日
  • 阿里云对象存储OSS第三方数据源迁移到 OSS-云淘科技

    您可以使用阿里云在线迁移服务将第三方数据源,如亚马逊AWS、谷歌云等数据轻松迁移至阿里云对象存储OSS。 使用在线迁移服务,您只需在控制台填写源数据地址和目标OSS地址信息,并创建迁移任务即可。启动迁移后,您可以通过控制台管理迁移任务,查看迁移进度、流量等信息;也可以生成迁移报告,查看迁移文件列表、错误文件列表。具体各个数据源的迁移操作,请参见在线迁移服务使…

    阿里云对象存储 2023年12月10日
  • 阿里云大数据开发治理平台 DataWorks常见问题-云淘科技

    本文为您介绍数据集成任务常见问题。 资源组操作及网络连通 在做离线同步时,我们需要先了解哪些DataWorks及其网络能力? 同步ECS自建的数据库的数据时,如何保障数据库与DataWorks的网络连通? 数据库和DataWorks不在同一个地域(Region)下,进行数据同步时如何保障数据库与DataWorks的网络连通? 数据库和DataWorks不在同…

  • 阿里云容器服务ACK云原生架构下日志服务数据预处理-云淘科技

    本文介绍云原生架构下日志服务数据预处理的场景描述、方案优势、解决问题、架构图及操作参考链接。 场景描述 某家国际教育机构,提供在线教育服务,其用户主要分布在中美两地,该企业拥抱云计算,在架构设计上也全面采用了云原生服务,本实践将重点聚焦以下几个典型场景: 跨地域/跨账号数据汇集。 数据内容富化(join维表)。 数据投递/归档、入湖分析。 统一采集,按业务分…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS添加统计图表到仪表盘-云淘科技

    日志服务支持将查询和分析结果通过图表形式保存到仪表盘中。本文介绍将普通版本的统计图表添加到仪表盘的操作步骤。 前提条件 已创建Standard Logstore。具体操作,请参见创建Logstore。 已采集日志。具体操作,请参见数据采集。 已配置索引。具体操作,请参见创建索引。 使用限制 每个仪表盘最多可添加200张统计图表。 功能入口 您可以通过Logs…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。