详情页标题前

阿里云云原生大数据计算服务 MaxCompute存储成本优化-云淘科技

详情页1

本文从数据分区生命周期和定期删除表3个方面为您介绍如何优化存储成本。

对于存储优化而言,有三个关键点:

  • 合理地进行数据分区。
  • 设置合理的表生命周期。
  • 定期地删除废表。

合理设置数据分区

MaxCompute将分区列的每个值作为一个分区。您可以指定多级分区,即将表的多个字段作为表的分区,分区之间的关系类似多级目录的关系。在使用数据时如果指定了需要访问的分区名称,则只会读取相应的分区,避免全表扫描,提高处理效率,降低费用。

  • 假如最小统计周期为天,建议采用日期作为分区字段。每天将数据迁移到指定分区,再读取指定分区的数据进行下游统计。
  • 假如最小统计周期为小时,建议采用日期+小时作为分区字段。每小时将数据迁移到指定分区,再读取指定分区的数据进行下游统计。如果小时调度的统计任务也按天分区,数据每小时追加,则每小时将多读取大量的无用数据,增加不必要的费用。

您可以根据实际的业务情况选择分区字段,除了日期和时间,也可以使用其他的枚举值个数相对固定的字段,例如渠道、国家和省份地市。或者使用时间和其他字段共同作为分区字段。一般而言,推荐使用二级分区,因为最大的单表最多只支持6万个分区。

合理设置表生命周期

您可以根据数据本身的使用情况,在创建表时对表设置生命周期,MaxCompute会及时删除超过生命周期的数据,达到节省存储空间的目的。

例如,创建一张生命周期为100天的表。如果这张表或者分区的最后修改时间超过了100天将会被删掉。

CREATE TABLE test3 (key boolean) PARTITIONED BY (pt string, ds string) LIFECYCLE 100;

生命周期最小单位是分区,所以一个分区表中,如果部分分区达到了生命周期的阈值,那么这些分区会被直接删掉,未达到生命周期阈值的分区不受影响。

已经创建的表可以通过如下命令修改生命周期。详情请参见生命周期操作。

ALTER TABLE table_name SET lifecycle days;

删除废表

建议您定期地删除访问跨度大(即长期不会访问)的废表,因为这些表的意义并不大,会极大的浪费存储资源,例如:

  • 3个月内没有被访问的表。
  • 一张表是非分区表,同时最近1个月内没有被访问。
  • 存储为0KB的表,即没有存储的表。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/159277.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云云原生大数据计算服务 MaxComputeTPC-DS数据-云淘科技

    MaxCompute通过TPC-DS官方工具生成了10GB、100GB、1TB、10TB四个规格的TPC-DS数据,此数据方便您在做产品测试时使用。本文为您介绍MaxCompute公开数据集中TPC-DS数据的基本信息,以及如何通过MaxCompute执行TPC-DS数据查询。 简介 TPC BenchmarkTM DS (TPC-DS)是全球最知名的数据管…

  • 阿里云日志服务SLS成本优化指南-云淘科技

    数据加工主要解决您规整数据的痛点以及帮助您进一步挖掘数据的价值,降低时间与人力成本。合理配置可以节约一定的成本,本文档介绍如何以较优的成本方式使用数据加工功能。 典型配置 根据加工原理和性能指南,推荐您简化采集方案,使用一个或多个Logstore快速接入数据,然后使用数据加工进行快速分发,并根据实际需求设置不同目标Logstore的存储时间以及索引配置。 成…

    2023年12月10日
  • 阿里云RDS数据库恢复方案概览-云淘科技

    本文介绍RDS SQL Server的恢复方案概览。 场景 功能 相关操作 数据恢复 恢复到已有实例 恢复SQL Server数据说明 恢复单库到已有实例时,建议先手动备份单库,再将单库备份的作为数据库恢复的起始点,在应用的版本升级或发布等场景下,该方式可更灵活回滚数据。 恢复到全新实例 通过临时实例恢复到原实例说明 临时实例恢复到原实例仅适用于RDS SQ…

    阿里云数据库 2023年12月10日
  • 阿里云RDS数据库什么是可用性检测方式-云淘科技

    阿里云通过短连接或长连接的方式对您的RDS实例做可用性检测,以判断实例的健康状况。默认使用长连接。 如果您的应用频繁创建、关闭数据库连接,建议选择短连接的检测方式。 如果您的应用使用了数据库连接池,建议选择长连接的检测方式。 说明 修改检测方式不会影响实例的运行。内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家阿里云企业补贴进行中: 马上申请腾讯…

    阿里云数据库 2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS通过SQL聚合指标数据进行智能巡检-云淘科技

    智能巡检功能用于对业务日志进行自动化、智能化、自适应的异常巡检。本文介绍通过SQL聚合指标数据进行智能巡检的操作步骤。 前提条件 已采集日志到源Logstore。具体操作,请参见数据采集概述。 已配置源Logstore的索引。具体操作,请参见配置索引。 已创建智能异常分析实例。具体操作,请参见创建实例。 注意 本文中所涉及的Logstore为Standard…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。