详情页标题前

阿里云云原生大数据计算服务 MaxCompute使用SQL管理外部项目-云淘科技

详情页1

本文为您介绍在构建湖仓一体时,如何使用SQL方式执行外部项目(External Project)管理日常操作

背景信息

您在通过DataWorks控制台的数据湖集成界面创建External Project后,可以使用SQL方式操作External Project,场景如下所示。

  • 基于数据湖构建DLF和对象存储OSS的外部项目操作

  • 基于Hadoop外部数据源的外部项目操作

  • 创建与外部数据源中结构相同的表

基于数据湖构建DLF和对象存储OSS的外部项目操作

在创建External Project后,您可以通过MaxCompute客户端进入创建的External Project空间,在关联的MaxCompute项目下,对External Project的表或数据进行操作。

与常规MaxCompute SQL不同的是,External Project表需要以external_project_name.table_name格式引用。目前暂不支持在外部项目中创建表。

  • 向表中插入数据。

    • 向非分区表插入数据。

      --进入关联的MaxCompute项目(非外部项目)。
      use doc_test_prod;
      
      --向非分区表中插入数据。
      insert into table ext_mcdlf_ddl.ddl_test values(1,"ddl_test_1");
    • 向分区表中插入数据。

      --进入关联的MaxCompute项目。
      use doc_test_prod;
      
      --向表中插入数据。
      insert overwrite table ext_mcdlf_ddl.range_ptstring_ptint partition (pt1 = 'ds1', pt2=2) values (4, 'val4'), (5, 'val5');
  • 查看External Project中的表信息。

    --进入关联的MaxCompute项目。
    use doc_test_prod;
    
    --查看External Project下的表。
    show tables in doc_test_prod;
    
    --查看ext_mcdlf_ddl.ddl_test表结构。
    desc extended ext_mcdlf_ddl.ddl_test;
  • 查询External Project中的表数据。

    --进入关联的MaxCompute项目。
    use doc_test_prod;
    
    --查询非分区表ext_mcdlf_ddl.ddl_test数据。
    select * from ext_mcdlf_ddl.ddl_test limit 10;
    
    --查询分区表ext_mcdlf_ddl.range_ptstring_ptint的数据。
    select * from ext_mcdlf_ddl.range_ptstring_ptint where pt1='ds1';

说明

  • 对于某些特殊场景,需要在执行 SQL 时添加参数,例如:

    -- 如果用户的orc 版本大于 orc135。 则应设置如下参数:
    set odps.ext.oss.orc.native=true;
    
    -- 打开Hive兼容模式后,MaxCompute才支持Hive指定的各种语法
    set odps.sql.hive.compatible=true;
    
    -- 通过OSS分片上传功能将数据写入OSS
    set odps.sql.unstructured.oss.commit.mode=true;
    -- 支持通过如下语句全project 默认打开该功能
    setproject odps.sql.unstructured.oss.commit.mode=true;
  • 常规MaxCompute SQL语法,请参见表操作和插入或覆写数据(INSERT INTO | INSERT OVERWRITE)。

  • 您可以在odps_config.ini文件中增加set配置内容,避免每次手动输入。

  • 更多分片上传功能信息,请参见.NET分片上传。

基于Hadoop外部数据源的外部项目操作

按照如下命令,查询Hadoop中Hive表数据。

--执行作业需要在普通项目下,不能是外部项目。
use 
; --访问阿里云E-MapReduce表必须设置,访问MaxCompute内部表不需要。 set odps.sql.hive.compatible=true; --指定写出到HDFS的用户名(非必须)。 set odps.external.hadoop.user=; --读取Hive表数据。 select * from limit 10;

说明

  • 目前无法对关联的External Project执行DDL类的SQL语句(add partition和drop partition除外)。DDL SQL语句,详情请参见SQL概述。

  • 您可以在odps_config.ini文件中增加set配置set.odps.sql.hive.compatible=true和set.odps.external.hadoop.user=,避免每次手动输入。

创建与外部数据源中表结构相同的表

如果需要创建与外部数据源中表结构相同的表,可以使用create table...like命令复制外部数据源中表的结构,命令示例如下。

说明

create table...like命令详细说明请参见表操作。

-- 创建表
create table from_exe_tbl like external_project.testtbl;
-- 此时from_exe_tbl的表结构与 external_project.testtbl 完全相同。
-- 除生命周期属性外,列名、列注释以及表注释等均相同。但external_project.testtbl中的数据不会被复制到from_exe_tbl表中。
-- 查询表
SELECT * from from_exe_tbl;
-- 查看表结构
desc from_exe_tbl;

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/160013.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云负载均衡CreateListener – 创建监听-云淘科技

    在指定地域创建HTTP、HTTPS或QUIC监听。 接口说明 CreateListener接口属于异步接口,即系统返回一个请求ID,但该HTTP、HTTPS或QUIC监听尚未创建成功,系统后台的创建任务仍在进行。您可以调用GetListenerAttribute查询HTTP、HTTPS或QUIC监听的创建状态: 当HTTP、HTTPS或QUIC监听处于Pro…

    阿里云负载均衡 2023年12月10日
  • 阿里云日志服务SLS创建资源数据-云淘科技

    资源数据主要用于配置特定告警监控规则所关联的外部数据(例如监控目标的黑白名单),您可以创建、修改和删除这些外部数据。本文介绍创建资源数据的操作。 操作步骤 登录日志服务控制台。 进入资源数据管理页面。 在Project列表区域,单击任意一个Project。 在左侧导航栏中,单击告警。 在告警中心页面,选择其它 > 资源数据。 单击创建,配置资源数据的信…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云大数据开发治理平台 DataWorksGetMetaTableIntroWiki-云淘科技

    调用GetMetaTableIntroWiki获取表的使用说明。 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。 请求参数 名称 类型 是否必选 示例值 描述 Action String 是 GetMetaTableIntroWiki 要执行的操作…

  • 阿里云日志服务SLS为MaxCompute投递任务(新版)设置告警-云淘科技

    日志服务已内置数据投递监控规则模板,您只需添加对应的告警实例即可实时监控MaxCompute投递任务,并可通过钉钉等渠道接收到告警通知。本文介绍设置告警的相关操作。 前提条件 已创建MaxCompute投递任务。具体操作,请参见创建MaxCompute投递任务(新版)。步骤一:开启任务运行日志登录日志服务控制台。在Project列表区域,单击目标Projec…

    阿里云日志服务SLS 2023年12月10日
  • 阿里云日志服务SLS产品优势-云淘科技

    本文介绍日志服务的优势。 统一接入 支持多种来源的多种类型数据接入。 智能 提供完整AIOps能力,支持智能异常检测与根因分析能力。 高效 提供千亿级数据实时采集和查询与分析能力。 一站式 提供一站式数据功能,包括数据采集、加工、查询与分析、可视化、告警等。 弹性 提供PB级别数据弹性伸缩能力。 低成本 支持按量付费。您仅需为实际用量付费,总拥有成本(TCO…

    阿里云日志服务SLS 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。