详情页标题前

阿里云云原生大数据计算服务 MaxComputeMaxCompute+DLF+OSS实践-云淘科技

详情页1

由于DLF数据入湖功能已经停止更新,本文采用DataWorks数据集成的入湖方式,以MySQL数据入湖为例,为您介绍在MaxCompute中如何创建外部项目,并查询DLF中的数据。

MySQL数据入湖

DLF入湖详情请参见快速入门。

步骤一:创建数据湖的元数据库

登录数据湖管理控制台,在页面上方选择地域,在元数据 > 元数据管理页面创建元数据库。具体操作请参见创建元数据库。

步骤二:DataWorks数据集成导入数据至OSS

  1. 准备入湖数据。

    1. 登录数据湖管理控制台,选择地域,并单击左侧导航栏的实例列表

    2. 选择目标RDS实例,登录数据库。

    3. 为RDS数据库创建表并插入少量测试数据,详情请参见通过DMS登录RDS MySQL。例如表名为rds_mc,命令示例如下:

      CREATE TABLE `rds_mc` (
        `id` varchar(32) ,
        `name` varchar(32) ,
          PRIMARY KEY (`id`)
      ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
      INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(1,"张三");
      INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(2,"zhangsan");
      INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(3,"zhaosi");
      INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(4,"wangwu");
      INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(5,"55555");
      INSERT INTO `rds_mc`(`id` ,`name` ) VALUES(8,"6666");
      
      SELECT * FROM `rds_mc`;
  2. 准备RDS MySQL数据源。

    在DataWorks中配置MySQL数据源,具体操作请参见配置MySQL数据源。

  3. 准备OSS数据源。

    在DataWorks中配置OSS数据源,具体操作请参见配置OSS数据源。

  4. 创建并执行数据同步任务。

    在DataWorks中创建离线同步任务,详情请参见通过向导模式配置离线同步任务。关键配置如下:

    1. 网络与资源配置。阿里云云原生大数据计算服务 MaxComputeMaxCompute+DLF+OSS实践-云淘科技

      参数

      说明

      来源

      数据来源

      MySQL。

      数据源名称

      已创建的MySQL数据源。

      资源组

      我的资源组

      已创建的数据集成独享资源组。

      去向

      数据去向

      OSS。

      数据源名称

      已创建的OSS数据源。

    2. 配置任务。阿里云云原生大数据计算服务 MaxComputeMaxCompute+DLF+OSS实践-云淘科技

      参数

      说明

      RDS数据库中已创建的表名。

      文件名(含路径)

      格式:/。

      例如doc-test-01/datalake/anti.csv

    3. 单击离线同步任务配置页面左上角的阿里云云原生大数据计算服务 MaxComputeMaxCompute+DLF+OSS实践-云淘科技图标保存配置,然后单击阿里云云原生大数据计算服务 MaxComputeMaxCompute+DLF+OSS实践-云淘科技图标运行任务。

    4. DataWorks中任务运行成功后,可在OSS数据源配置路径下查看数据是否导入成功。阿里云云原生大数据计算服务 MaxComputeMaxCompute+DLF+OSS实践-云淘科技

步骤三:DLF进行元数据抽取入湖

在数据湖管理控制台以元数据抽取的方式进行数据入湖。具体操作请参见元数据抽取。

步骤四:查看数据湖的元数据

在数据湖管理控制台单击元数据 > 元数据管理,进入目标数据库,在表列表页签查看数据表信息。

重要

如果通过元数据抽取后的表的序列化方式为:org.apache.hadoop.hive.serde2.OpenCSVSerde,会导致MaxCompute识别DLF的元数据中字段类型为 opencsv的string ,而引发查询失败报错,需手动将DLF的识别字段类型都改成string类型。

访问授权

操作MaxCompute项目的账号未经授权无法访问DLF、OSS服务,您需要执行授权操作。授权方式包含如下两种:

  • 一键授权:当创建MaxCompute项目的账号和部署DLF的账号相同时。推荐您直接单击授权DLF进行一键授权。

  • 自定义授权:当创建MaxCompute项目的账号和部署DLF的账号相同或不相同,都可以使用该方式。详情请参见自定义授权DLF。

MaxCompute创建外部项目

  1. 在DataWorks控制台创建External Project。

    1. 登录DataWorks控制台,选择地域为华东2(上海)。

    2. 在DataWorks控制台页面左侧导航栏,单击数据湖集成(湖仓一体)

    3. 数据湖集成(湖仓一体)页面,单击现在开始创建

    4. 新建数据湖集成页面,按照界面指引进行操作。参数示例如下所示。

      表 1. 创建数据仓库

      参数

      说明

      外部项目名称

      ext_dlf_delta

      MaxCompute项目

      ms_proj1

      表 2. 创建外部数据湖连接

      参数

      说明

      异构数据平台类型

      选择阿里云DLF+OSS数据湖连接

      阿里云DLF+OSS数据湖连接

      External Project描述

      DLF所在区

      cn-shanghai

      DLF Endpoint

      dlf-share.cn-shanghai.aliyuncs.com

      DLF数据库名称

      datalake

      DLF RoleARN

    5. 单击创建后单击预览

      如果能预览DLF库中表的信息,则表示操作成功。

    说明

    以上是DataWorks控制台创建External Project,如果您需要通过SQL方式创建External Project,请参见使用SQL管理外部项目。

MaxCompute查询外部项目数据

在DataWorks临时查询页面,查看External Project下的表数据。

说明

DataWorks临时查询操作,详情请参见DataWorks临时查询。

  • 命令示例:

    select * from ext_dlf_delta.rds_mc;
  • 返回结果:阿里云云原生大数据计算服务 MaxComputeMaxCompute+DLF+OSS实践-云淘科技

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/157673.html

(0)
上一篇 2023年12月10日 上午1:04
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云云原生大数据计算服务 MaxCompute公共维度汇总层(DIM)-云淘科技

    公共维度汇总层DIM(Dimension)基于维度建模理念,建立整个企业的一致性维度。 公共维度汇总层(DIM)主要由维度表(维表)构成。维度是逻辑概念,是衡量和观察业务的角度。维表是根据维度及其属性将数据平台上构建的物理化的表,采用宽表设计的原则。因此,公共维度汇总层(DIM)首先需要定义维度。 定义维度 在划分数据域、构建总线矩阵时,需要结合对业务过程的…

  • 阿里云容器服务ACK应用监控-云淘科技

    对于部署在容器服务Kubernetes版中的Java应用,您可以使用应用实时监控服务ARMS对其进行监控,实现自动发现应用拓扑、自动生成3D拓扑、自动发现并监控接口、捕获异常事务和慢事务,大幅提升线上问题诊断的效率。 前提条件 已创建Kubernetes集群。具体操作,请参见创建Kubernetes托管版集群或创建Kubernetes专有版集群。 创建命名空…

    2023年12月10日
  • 阿里云ECS云服务器创建授权候补-云淘科技

    授权候补适用于因库存不足导致购买失败且短期内有机会少量补货的规格。您需要预先授权系统在有货时自动帮您支付并创建实例,如果到期购买不成功不会收取费用。本文为您介绍创建授权候补的操作步骤。 背景信息 通过授权候补,您可以获得少量预付费资源短期内的确定性保障。可以选择1小时以内的等待时间进行候补,1小时后候补自动失效。如果您需要更多数量的资源且可接受等待更久的时间…

    2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS米哈游-云淘科技

    日志服务从内测期便伴随米哈游《原神》团队一同成长,从测试,到公测,到正式上线发布,到积累千万级用户。日志服务一如既往的高性能、高稳定得到了米哈游的广泛认可与赞扬。 公司简介 米哈游成立于2012年,业务主要集中在国产动漫文化下的移动游戏、漫画等领域。作为研发商,米哈游陆续推出了《崩坏学院》、《崩坏学院2》、《崩坏3》等国产动漫移动游戏领域的优秀作品,广受用户…

    2023年12月10日
  • 阿里云日志服务SLS创建资源数据-云淘科技

    资源数据主要用于配置特定告警监控规则所关联的外部数据(例如监控目标的黑白名单),您可以创建、修改和删除这些外部数据。本文介绍创建资源数据的操作。 操作步骤 登录日志服务控制台。 进入资源数据管理页面。 在Project列表区域,单击任意一个Project。 在左侧导航栏中,单击告警。 在告警中心页面,选择其它 > 资源数据。 单击创建,配置资源数据的信…

    阿里云日志服务SLS 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。