详情页标题前

阿里云云原生大数据计算服务 MaxComputeHive数据迁移-云淘科技

详情页1

本文为您介绍通过Hive UDTF迁移Hive数据的方法。

准备事项

  • ⽹络环境要求。
    • Hive集群各节点能够访问MaxCompute。
    • MMA所在服务器能够访问Hive MetaStore Server、Hive Server。
  • 创建⽤于迁移数据的Hive UDTF。
    1. 在MMA的帮助⻚⾯下载对应版本的UDTF的jar包,如mma-udtf.jar
    2. 执行以下命令上传mma-udtf.jar至HDFS。
      hdfs dfs -put -f mma-udtf.jar hdfs:///tmp/
    3. 使⽤Beeline或Hive命令登录Hive、创建Hive UDTF。
      DROP FUNCTION IF EXISTS default.odps_data_dump_multi;
      CREATE FUNCTION default.odps_data_dump_multi as 'com.aliyun.odps.mma.io.McD
      ataTransmissionUDTF' USING JAR 'hdfs:///tmp/mma-udtf.jar';
  • 如果Hive配置了kerberos访问认证,需要将以下文件拷贝到MMA所在的服务器。
    1. hive.keytab⽂件。
    2. gss-jass.conf⽂件。说明 gss-jass.conf中含有keytab⽂件的路径,要确保其与MMA所在服务器上的hive.keytab⽂件路径⼀致。
    3. krb5.conf⽂件。说明 krb5.conf中含有KDC地址,MMA所在服务器要能够访问该地址。

操作步骤

  1. 添加数据源。

    1. 单击页面左侧的数据源,进入数据源列页面。
    2. 单击添加数据源,进入添加数据源页面。
    3. 数据源类型选择HIVE,并单击下一步。
    4. 根据如下参数说明配置数据源。
      参数名称 描述
      数据源名 数据源名称,可自定义,不能包含字符、数字、汉字之外的特殊字符。
      hive metastore url 请根据实际情况填写。如:thrift://192.168.0.212:9083。
      hive metastore client socket timeout 默认600。
      hive jdbc url Hive JDBC的连接信息。格式为jdbc:hive2://localhost:10000/default
      hive jdbc user name Hive JDBC的用户名,必填。
      hive jdbc password Hive JDBC的密码,可选。
      hive metastore是否开启了kerberos认证 若开启,则需要填写下⾯kerberos的相关配置。
      kerberos principal 与kr5.conf⾥的kdc_realam值保持⼀致。
      kerberos keytab文件位置 keytab⽂件在MMA所在服务器上的路径。
      kerberos gss-jaas.conf文件位置 gss-jass.conf⽂件在MMA所在服务器上的路径。
      kerberos krb5.conf文件位置 krb5.conf⽂件在MMA所在服务器上的路径。
      单个任务处理的最多分区数量 默认50。即一次MMA任务迁移的分区数量,通过批量的分区迁移,可以减少提交Hive SQL的次数,节约Hive SQL提交时间。
      单个任务处理的最大数量(单位G) 单位GB,默认5。即⼀次MMA任务迁移的所有分区的⼤⼩之和的上限。
      hive job配置, 用于mr, spark, tez等引擎 默认为MR任务的部分配置。说明 如果Hive使⽤的引擎不是MR,则需要通过指定“hive.execution.engine”值来指定Hive使⽤的引擎,并且⽤于不同引擎的任务参数需要自己调整。该配置用于解决YARN Container内存不⾜、指定Spark运⾏队列等问题。
      数据库白名单 需要迁移的Hive数据库,多个值之间以英⽂逗号分隔。
      数据库黑名单 不需要迁移的Hive数据库,多个值之间以英⽂逗号分隔。
      meta api访问并发量 访问Hive MetaStore的并发量,⽤于提⾼获取Hive元数据的速度。
      表黑名单, 格式为db.table 不需要迁移的Hive数据库表。单个表的格式为dbname.tablename, 多个表之间以英⽂逗号分隔。
      表白名单, 格式为db.table 需要迁移的Hive数据库表。单个表的格式为dbname.tablename,多个表之间以英⽂逗号分隔。
    5. 单击页面底部的提交。说明 如果所填的配置无误,且MMA所在服务器能够访问Metastore URL和JDBC URL,则MMA会通过Metastore URL拉取Hive的元数据,即库、表、分区信息。否则将会报错,此时需要检查各配置项是否正确,重新填写并提交配置。
    6. 待拉取元数据的进度条显示为100%后,页面会跳转到数据源列表页面。
  2. 创建数据迁移任务。

    MMA可以创建单库、多表、多分区三个级别的迁移任务。说明

    • 单库,迁移单个Database。
    • 多表,迁移一个或多个Table。
    • 多分区,迁移1个或多个Partition。
    • 迁移多个表。
      1. 单击页面左侧的数据源,在数据源列表页面单击想要迁移的数据源名。
      2. 在所选的数据源详情页面,单击要迁移的库名。
      3. 勾选要迁移的表,单击新建迁移任务。
      4. 根据实际情况在新建迁移任务弹框中配置各参数,参数说明如下。
        参数名称 描述
        名称 自定义。建议填写有意义的任务名称,便于整理迁移记录。
        任务类型 请根据实际情况选择。

        • mc同region。
        • mc跨region。
        • mc校验。即对比源项目和目的项目所有相同表的数据。
        mc项目 目的MaxCompute项目。
        table列表 要迁移的Table列表,多个Table之间以英⽂逗号分隔。
        开启校验 默认打开。
        增量更新 默认打开。开启后分区表已经迁移过的分区不会被重新迁移。
        只迁schema 只迁移表结构、分区值。根据实际情况选择是否打开。
        分区过滤 详情请参见分区过滤表达式说明。
        表名映射 ⼀个Table迁移到⽬的项目后的名称。
      5. 单击确定。说明 如果迁移任务的配置无误,则新的迁移任务可以在迁移任务 > 任务列表中查看,相应的子任务可以在迁移任务 > 子任务列表中查看。
    • 迁移多个分区。
      1. 单击页面左侧的数据源,在数据源列表页面单击想要迁移的数据源名。
      2. 在所选的数据源详情页面,单击要迁移的库名。
      3. 切换partition列表页签,勾选要迁移的分区。
      4. 单击新建迁移任务,根据实际情况在新建迁移任务弹框中配置各参数,参数说明如下。
        参数名称 描述
        名称 自定义。建议填写有意义的任务名称,便于整理迁移记录。
        任务类型 请根据实际情况选择。

        • mc同region。
        • mc跨region。
        • mc校验。即对比源项目和目的项目所有相同表的数据。
        mc项目 目的MaxCompute项目。
        开启校验 默认打开。
        只迁schema 只迁移表结构、分区值。根据实际情况选择是否打开。
        partition列表 保持默认值即可。
        表名映射 ⼀个Table迁移到⽬的项目后的名称。
      5. 单击确定。说明 如果迁移任务的配置无误,则新的迁移任务可以在迁移任务 > 任务列表中查看,相应的子任务可以在迁移任务 > 子任务列表中查看。
    • 迁移单个库。
      1. 单击页面左侧的数据源,在数据源列表页面单击想要迁移的数据源名。
      2. 单击要迁移的库所在行的迁移。
      3. 根据实际情况在新建迁移任务弹框中配置各参数,参数说明如下。
        参数名称 描述
        名称 自定义。建议填写有意义的任务名称,便于整理迁移记录。
        任务类型 请根据实际情况选择。

        • mc同region。
        • mc跨region。
        • mc校验。即对比源项目和目的项目所有相同表的数据。
        mc项目 目的MaxCompute项目。
        table白名单 要迁移的Table列表,多个Table之间以英文逗号分隔。
        开启校验 默认打开。
        增量更新 默认打开。开启后分区表已经迁移过的分区不会被重新迁移。
        只迁schema 只迁移表结构、分区值。
        分区过滤 详情请参见分区过滤表达式说明。
        表名映射 ⼀个Table迁移到⽬的项目后的名称。
      4. 单击确定。说明 如果迁移任务的配置无误,则新的迁移任务可以在迁移任务 > 任务列表中查看,相应的子任务可以在迁移任务 > 子任务列表中查看。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/158591.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云RDS数据库ImportDatabaseBetweenInstances – 从其他RDS SQL Server实例迁入数据-云淘科技

    该接口用于从其它RDS SQL Server实例迁入数据。 接口说明 适用引擎 RDS SQL Server 功能说明 建议您使用数据传输服务DTS,集数据迁移、订阅、同步于一体,为您提供稳定安全的传输链路。更多信息,请参见DTS API概览。 注意事项 迁移过程中,源实例的状态将变为迁移中,目标实例的状态将变为数据导入中。 调用该接口前,请确认实例已满足以…

    阿里云数据库 2023年12月9日
  • 阿里云日志服务SLS流图(Pro版本)-云淘科技

    流图Pro版本支持更强大的可视化功能,例如合并多个查询分析结果在同一个流图中展示、针对字段进行个性化设置等。本文介绍流图Pro版本的基本配置。 简介 流图(Flow Chart)也称为主题河流图(ThemeRiver),是围绕中心轴线进行布局的一种堆叠面积图。不同颜色的线条代表了不同的分类信息。此外,原数据集中的时间属性,默认映射到X轴上,是一个三维关系的展…

    阿里云日志服务SLS 2023年12月10日
  • 阿里云负载均衡相同域名不同路径的流量转发-云淘科技

    传统型负载均衡CLB支持配置基于域名和路径的转发策略。您可以将来自相同域名不同路径的请求转发给不同的后端服务器组,合理分配服务器资源。 背景信息 说明 只有7层监听(HTTPS或HTTP协议)支持配置转发策略。 本教程以四个部署了Nginx服务器的ECS为例,演示如何通过配置域名加URL转发规则,完成如下表所示的流量转发。 前端请求 流量转发至 www.ex…

    阿里云负载均衡 2023年12月10日
  • 阿里云日志服务SLS接入iOS App监控数据-云淘科技

    本文介绍如何使用Pod集成方式接入iOS应用数据到日志服务移动运维监控。移动运维监控用于实时监控App崩溃等问题,并且支持智能分析,帮助您低成本、高效率地发现App应用中的各类隐患。 前提条件 已创建移动监控应用。具体操作,请参见添加应用。步骤一:集成SDK(推荐)通过CocoaPods集成在Xcode工程的Podfile中添加如下内容。本文以AliyunL…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云大数据开发治理平台 DataWorksGetNodeChildren-云淘科技

    调用GetNodeChildren获取节点下游列表。 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。 请求参数 名称 类型 是否必选 示例值 描述 Action String 是 GetNodeChildren 系统规定参数。取值:GetNodeC…

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。