详情页标题前

腾讯云对象存储Table 管理能力

详情页1

Table 管理能力概述

GooseFS Table 管理能力用于管理结构化数据,为 SparkSQL、Hive、Presto 等上层计算应用提供数据库表管理能力,目前底层支持对接 Hive MetaStore。Table 管理能力能够帮助各类 SQL 引擎读取指定的数据内容,能够有效提升大数据场景下对数据的访问效率。

腾讯云对象存储Table 管理能力


GooseFS Table 管理能力目前主要支持了以下特性:元数据层面的描述能力。GooseFS Catalog 提供源自远程元数据服务(Hive MetaStore)的元数据缓存服务,针对 SparkSQL,Hive,SQL Presto 等 SQL 引擎做查询时,可以根据 GooseFS Catalog 中的元数据缓存服务来确定读取数据大小、目标数据位置以及数据结构,具备与 Hive MetaStore 相同的能力表现。表级数据预缓存能力。GooseFS Catalog 能够感知数据表和数据存储路径的对应关系,进而可以提供 Table 级别以及 Table Partition 级别的缓存预热能力,帮助用户提前按照表结构缓存数据,极大提高访问性能。跨存储服务的统一元数据服务。通过 GooseFS Catalog 运行上层计算应用,可以同时对不同的底层存储系统提供访问加速能力。同时 GooseFS Catalog 可以提供跨越存储服务的统一元数据查询能力,只需要一个 GooseFS 客户端开启 Catalog 功能,即可查询不同存储系统,例如 HDFS、COS、CHDFS 中的数据。

使用 GooseFS Table 管理能力

GooseFS Table 管理能力通过 goosefs table 指令集实现,提供了 DB 的绑定和解绑、查询 DB 信息、查询表信息、数据加载、数据淘汰等能力。GooseFS Table 管理指令集如下所示:

$ goosefs tableUsage: goosefs table [generic options]     [attachdb [-o|--option ] [--db ] [--ignore-sync-errors]   ]     [detachdb ]                                           [free   [-p|--partition ]]     [load   [-g|--greedy] [--replication ] [-p|--partition ]]     [ls [ []]]                                [stat  ]                                    [sync ]                                          

上述指令集中各项指令的能力简述如下:attachdb:挂载数据库,将一个远端数据库绑定到 GooseFS 上,目前仅支持 Hive MetaStore。detachdb:卸载数据库,将 GooseFS 上绑定的数据库解绑。free:清除指定 DB.Table 的数据缓存,可支持 Partition 粒度。load:缓存指定 DB.Table 的数据,可支持 partition 粒度,支持通过 replication 设置缓存的副本数。ls:列出指定 DB 或 DB.Table 的元数据信息。stat:查询指定 DB.Table 的文件数目、总大小、以及缓存百分比。sync:同步指定 DB 的内容。transform:将指定 DB 关联的 Table 转换为新的 Table。transformStatus:Table 转换的进度情况。

1. 挂载 DB

预热指定 Table 数据到 GooseFS 之前,需要将对应的 DB 挂载到 GooseFS 上。如下指令展示了将指定地址 metastore_host:port 中的数据库 goosefs_db_demo 挂载到 GooseFS 中,并将该 DB 在 GooseFS 中命名为 test_db:

$ goosefs table attachdb --db test_db hive thrift://metastore_host:port goosefs_db_demo
response of attachdb

注意 metastore_host:port 可以替换为任意合法可连接的 Hive MetaStore 地址。

2. 查看 Table 信息

绑定完数据库后,可以通过 ls 指令查看已挂载的 DB 和 Table 信息,如下指令展示了如何查询 test_db 中的 web_page 表信息:

$ goosefs table ls test_db web_page
OWNER: hadoopDBNAME.TABLENAME: testdb.web_page ( wp_web_page_sk bigint, wp_web_page_id string, wp_rec_start_date string, wp_rec_end_date string, wp_creation_date_sk bigint, wp_access_date_sk bigint, wp_autogen_flag string, wp_customer_sk bigint, wp_url string, wp_type string, wp_char_count int, wp_link_count int, wp_image_count int, wp_max_ad_count int,)PARTITIONED BY ()LOCATION ( gfs://metastore_host:port/myiNamespace/3000/web_page)PARTITION LIST ( { partitionName: web_page location: gfs://metastore_host:port/myNamespace/3000/web_page })

3. 预热 Table 中的数据

预热 Table 的指令下发后会在后台发起一个异步作业,GooseFS 会在启动作业后返回一个作业 ID,可以通过 job stat 指令查询任务的运行状态,同时可以通过 table stat 指令查看预热百分比。预热指令如下:

$ goosefs table load test_db web_pageAsynchronous job submitted successfully, jobId: 1615966078836

4. 查看 Table 预热情况

通过 job stat 指令可以查看预热 Table 作业的执行进度。当状态为 COMPLETED 时,整个预热过程完成,如果状态为 FAILED,可以在 master.log 文件中查看日志记录,排查预热错误的原因:

$ goosefs job stat 1615966078836COMPLETED

当 Table 完成预热后,可以通过 stat 指令查看指定 Table 的概况。

$ goosefs table stat test_db web_pagedetail

5. 释放 Table

通过以下指令可以从 GooseFS 中释放指定 Table 数据缓存:

$ goosefs table free test_db web_pagedetail

6. 卸载 DB

通过以下指令可以从 GooseFS 中卸载指定 DB:

$ goosefs table detachdb test_dbdetail



对象存储官网1折活动,限时活动,即将结束,速速收藏
同尘科技腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

转转请注明出处:https://www.yunxiaoer.com/144871.html

(0)
上一篇 2023年12月9日 上午1:52
下一篇 2023年12月9日 上午1:52
详情页2

相关推荐

  • 阿里云RDS数据库DescribeDatabases – 查看实例下的数据库信息-云淘科技

    该接口用于查询RDS实例下的数据库信息。 接口说明 适用引擎 RDS MySQL RDS PostgreSQL RDS SQL Server RDS MariaDB 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。 调试调试授权信息下表是API对应的…

    阿里云数据库 2023年12月9日
  • 腾讯云容器服务自动压缩管理同尘科技

    操作场景 集群运行过程中,对 etcd 键值的所有更新操作都将被记录。为防止集群性能下降或存储空间耗尽,云原生 etcd 支持通过自动压缩功能实现对数据的定时清理,目前支持周期性压缩和根据 revision 压缩两种压缩模式。本文将为您介绍如何在控制台为 etcd 集群设置数据自动压缩。 前提条件 已 创建 etcd 集群。 操作步骤 1. 登录 云原生 e…

    2023年12月9日
  • 阿里云RDS数据库GrantAccountPrivilege – 授权账号访问数据库-云淘科技

    该接口用于授权数据库账号访问指定的数据库。 接口说明 适用引擎 RDS MySQL RDS PostgreSQL RDS SQL Server RDS MariaDB 相关功能文档 注意 使用该接口前,请仔细阅读功能文档,确保完全了解使用接口的前提条件及使用后造成的影响后,再进行操作。 RDS MySQL修改账号权限 RDS PostgreSQL数据库账号授…

    阿里云数据库 2023年12月9日
  • 腾讯云容器服务DaemonSet 管理同尘科技

    简介 DaemonSet 主要用于部署常驻集群内的后台程序,例如节点的日志采集。DaemonSet 保证在所有或部分节点上均运行指定的 Pod。 新节点添加到集群内时,也会有自动部署 Pod;节点被移除集群后,Pod 将自动回收。 调度说明 若配置了 Pod 的 nodeSelector 或 affinity 参数,DaemonSet 管理的 Pod 将按照…

    2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 腾讯云容器服务Kins 边缘独立集群使用指南同尘科技

    操作场景 本文介绍 TKE-Edge 推出的新特性——Kins,其主要功能描述如下:此能力可以将标准的 NodeUnit 边缘节点池,一键提升为独立 K3s 集群,此边缘节点池即可和云端控制面断网,并长期离线运行使用。离线过程中这个边缘节点池可以作为一个标准的K3s 集群进行独立运维;后期如果有运维或者升级的需求,可以将此节点池重新和云端建立连接后,即可从云…

    2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。