详情页标题前

阿里云日志服务SLSParquet格式-云淘科技

详情页1

日志服务将日志投递到OSS后,支持存储为不同的文件格式,本文介绍Parquet格式。

参数配置

在配置投递规则时,如果选择存储格式Parquet,对应的参数配置如下所示。阿里云日志服务SLSParquet格式-云淘科技

相关参数说明如下表所示。

参数

说明

Key名称

您可以在日志服务的原始日志页签中查看日志字段的Key,将您需要投递到OSS的字段名(Key)有序填入,在投递时将按照此顺序组织Parquet数据,并使用该key作为Parquet数据列名。除了日志内容的Key外,日志服务还提供保留字段__time__、__topic__、__source__,保留字段详情请参见保留字段。如果遇到如下两种情况时,Parquet数据列的值为null。

  • 此处配置的key在日志服务的日志中不存在。

  • 将string类型字段设置为非string类型(如double、int64等),导致投递时,转换数据类型失败。

说明

  • 同一个Key在Parquet字段中只能配置一次,不支持多次使用。

  • 如果您的日志中存在同名字段(例如都为request_time),则日志服务会将其中一个字段名显示为request_time_0,底层存储的字段名仍为request_time。因此您在投递时,只能使用原始字段名request_time。

    存在同名字段时,系统只随机投递其中一个字段的值。请尽量避免日志中使用同名字段。

类型

Parquet格式支持存储string、boolean、int32、int64、float、double这6种类型的数据。其中, 日志投递后,string类型会以Parquet中的byte_array类型进行存储,且系统不会设置Parquet数据中logical_type字段的值。

OSS文件地址

投递到OSS后,OSS文件地址示例如下表所示。

压缩类型

文件后缀

OSS文件地址示例

说明

不压缩

.parquet

oss://oss-shipper-shenzhen/ecs_test/2016/01/26/20/54_1453812893059571256_937.parquet

下载到本地,使用数据消费方式打开 。具体操作,请参见数据消费。

压缩(snappy)

.snappy.parquet

oss://oss-shipper-shenzhen/ecs_test/2016/01/26/20/54_1453812893059571256_937.snappy.parquet

数据消费

  • 通过E-MapReduce、Spark 、Hive消费数据。更多信息,请参见社区文档。

  • 通过单机校验工具消费数据。

    Python的parquet-tools可以用于验证Parquet格式的文件、查看详细信息、读取数据内容。您可以自行安装或者使用如下命令安装。

    pip3 install parquet-tools
    • 查看Parquet文件指定列的内容。

      • 命令

        例如查看remote_addr、body_bytes_sent列。

        parquet-tools show -n 2 -c remote_addr,body_bytes_sent 44_1693464263000000000_2288ff590970d092.parquet
      • 返回结果

        +----------------+-------------------+
        | remote_addr    |   body_bytes_sent |
        |----------------+-------------------|
        | 61.243.1.63    |           b'1904' |
        | 112.235.74.182 |           b'4996' |
        +----------------+-------------------+
    • 查看Parquet文件内容,也可以使用转成CSV格式的命令。

      • 命令

        parquet-tools csv -n 2 44_1693464263000000000_2288ff590970d092.parquet
      • 返回结果

        remote_addr,body_bytes_sent,time_local,request_method,request_uri,http_user_agent,remote_user,request_time,request_length,http_referer,host,http_x_forwarded_for,upstream_response_time,status
        b'61.**.**.63',b'1904',b'31/Aug/2023:06:44:01',b'GET',b'/request/path-0/file-7',"b'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_5_8) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.801.0 Safari/535.1'",b'uh2z',b'49',b'4082',b'www.kwm.mock.com',b'www.ap.mock.com',b'222.**.**.161',b'2.63',b'200'
        b'112.**.**.182',b'4996',b'31/Aug/2023:06:44:01',b'GET',b'/request/path-1/file-5',b'Mozilla/5.0 (Windows NT 6.1; de;rv:12.0) Gecko/20120403211507 Firefox/12.0',b'tix',b'71',b'1862',b'www.gx.mock.com',b'www.da.mock.com',b'36.**.**.237',b'2.43',b'200'
    • 查看Parquet文件的详细信息的命令。

      • 命令

        parquet-tools inspect 44_1693464263000000000_2288ff590970d092.parquet
      • 返回结果

        ############ file meta data ############
        created_by: SLS version 1
        num_columns: 14
        num_rows: 4661
        num_row_groups: 1
        format_version: 1.0
        serialized_size: 2345
        
        
        ############ Columns ############
        remote_addr
        body_bytes_sent
        time_local
        request_method
        request_uri
        http_user_agent
        remote_user
        request_time
        request_length
        http_referer
        host
        http_x_forwarded_for
        upstream_response_time
        status
        
        ############ Column(remote_addr) ############
        name: remote_addr
        path: remote_addr
        max_definition_level: 1
        max_repetition_level: 0
        physical_type: BYTE_ARRAY
        logical_type: None
        converted_type (legacy): NONE
        compression: UNCOMPRESSED (space_saved: 0%)
        ......

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/165046.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云对象存储OSSlogging(日志转存)-云淘科技

    访问对象存储OSS的过程中会产生大量的访问日志,您可以通过日志转存功能将这些日志按照固定命名规则,以小时为单位生成日志文件写入您指定的Bucket。您可以通过logging命令开启、查询、关闭Bucket的日志转存配置。 注意事项 本文各命令行示例均基于Linux 64位系统,其他系统请将命令开头的./ossutil64替换成对应的Binary名称。详情请参…

    阿里云对象存储 2023年12月10日
  • 阿里云日志服务SLS使用自定义Webhook的常见问题-云淘科技

    本文介绍使用自定义Webhook的常见问题。 如何设置内容模板 当通过自定义Webhook进行告警通知时,建议设置通知内容为JSON格式,即最终渲染的内容需为合法的JSON格式。 例如为如下的告警消息配置内容模板,由于alert.annotations.message字段值中包含双引号(””),因此您在内容模板中直接使用{{ aler…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云RDS数据库数据迁移方案概览-云淘科技

    RDS提供了多种数据迁移方案,可满足不同上云或迁云的业务需求,使您可以在不影响业务的情况下平滑将数据库迁移至阿里云云数据库RDS上面。 通过使用阿里云数据传输服务(DTS),您可以实现SQL Server数据库的结构迁移和全量迁移。 下表列出了RDS支持的上云、迁云、数据导出场景以及相关的操作链接: 使用场景 相关操作 将本地数据库迁移到云数据库 SQL S…

    阿里云数据库 2023年12月9日
  • 阿里云对象存储OSS新旧版本图片处理服务及使用说明-云淘科技

    图片处理服务目前提供新旧两版服务,本文介绍两版服务的主要区别。 新旧版本图片处理服务的主要区别 在添加处理参数时,新旧版本服务中的格式不同,区别如下: 新版参数格式:http://bucket./object?x-oss-process=image/action,parame_value 所有的图片处理操作都通过x-oss-process进行传递。每个act…

    阿里云对象存储 2023年12月10日
  • 阿里云日志服务SLS投递-对接数据仓库-云淘科技

    日志服务日志投递(LogShipper)功能可以便捷地将日志数据投递到OSS、Table Store、MaxCompute等存储类服务,配合E-MapReduce(Spark、Hive)、MaxCompute进行离线计算。 数据仓库(离线计算) 数据仓库(离线计算)是实时计算的补充,两者针对目标不同: 模式 优势 劣势 使用领域 实时计算 快速 计算较为简单…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。