详情页标题前

阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技

详情页1

DataWorks 提供了与CDH(Cloudera’s Distribution Including Apache Hadoop,以下简称CDH) 与CDP(Cloudera Data Platform,以下简称CDP)集群对接的能力,在保留CDH集群或CDP集群作为存储和计算引擎的前提下,您可以使用DataWorks的任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理功能。CDP与CDH基于DataWorks的开发操作基本一致,本文以CDH为例为您介绍DataWorks如何对接使用CDH与CDP。

前提条件

  • 已部署CDH。

    支持非阿里云ECS环境部署的CDH,但需要确保部署CDH集群的ECS和阿里云网络可达。通常您可以使用高速通道、VPN等网络连通方案,来保障网络可达。

  • 已开通DataWorks服务并创建好对接使用CDH的工作空间。

    说明

    对接使用CDH的工作空间无需绑定计算引擎,在创建工作空间时可跳过选择引擎步骤,其他步骤的操作详情可参见创建工作空间。

  • 拥有一个有工作空间的管理员权限的账号,在DataWorks中新增CDH引擎配置的操作仅空间管理员可操作。为账号授权空间管理员权限的操作可参见。空间级模块权限管控

  • 已购买并创建DataWorks的独享调度资源组。详情可参见独享资源组模式。

在DataWorks中对接使用CDH引擎时,主要配置流程为:

  1. Step1:获取CDH集群配置信息

  2. Step2:配置网络联通

  3. Step3:在DataWorks中新增CDH集群配置

对接配置完成后,您可在DataWorks上开发CDH引擎的数据开发任务并运行,并在运行后通过DataWorks的运维中心查看任务运行情况。详情可参见使用DataWorks进行数据开发和运维监控配置。

同时您可使用DataWorks的数据质量、数据地图功能,进行数据和任务管理。详情可参见数据质量规则配置和数据地图配置。

使用限制

  • 在DataWorks中使用CDH相关功能,必须使用DataWorks的独享调度资源组。

  • 您需要先保障CDH集群和独享调度资源组的网络可达后再进行后续的相关操作。

  • 目前DataWorks支持的CDH版本有:cdh6.1.1、cdh5.16.2、cdh6.2.1和cdh6.3.2。

Step1:获取CDH集群配置信息

  1. 获取CDH版本信息,用于后续DataWorks中新增CDH引擎配置。

    登录Cloudera Manager,在主界面集群名称旁可查看当前部署的CDH集群版本,如下图所示。阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技

  2. 获取Host地址与组件地址信息,用于后续DataWorks中新增CDH引擎配置。

    • 方式一:使用DataWorks JAR包工具获取。

      1. 登录Cloudera Manager,下载工具JAR包。

        wget https://dataworks-public-tools.oss-cn-shanghai.aliyuncs.com/dw-tools.jar
      2. 运行工具JAR包。

        export PATH=$PATH:/usr/java/jdk1.8.0_181-cloudera/bin
        java -jar dw-tools.jar  

        其中分别是Cloudera Manager的用户名和密码。

      3. 在运行结果中查看并记录CDH的Host地址和组件地址信息。阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技

    • 方式二:在Cloudera Manager页面手动查看。

      登录Cloudera Manager,在主机(Hosts)下拉菜单中选择角色(Roles),根据关键字和图标识别出需要配置的服务,然后看左侧对应的主机(Host),按照格式补全要填写的地址。默认端口号可以参考方法一的输出结果样例。阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技其中

      • HS2:HiveServer2

      • HMS:Hive Metastore

      • ID:Impala Daemon

      • RM:YARN ResourceManager

  3. 获取配置文件,用于后续上传至DataWorks。

    1. 登录Cloudera Manager。

    2. 状态页面,单击集群的下拉菜单中的查看客户端配置 URL

      阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技

    3. 在对话框中下载YARN的配置包。

      阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技

  4. 获取CDH集群的网络信息,用于后续与DataWorks的独享调度资源组网络联通配置。

    1. 登录部署CDH集群的ECS控制台。

    2. 在实例列表中找到部署CDH集群的ECS实例,在实例详情中查看并记录安全组专有网络虚拟交换机信息。

Step2:配置网络联通

DataWorks的独享调度资源组购买创建完成后,默认与其他云产品网络不可达,在对接使用CDH时,您需获取部署CDH集群的网络信息,将独享调度资源组绑定至CDH集群所在的VPC网络中,保障CDH集群与独享调度资源组的网络联通。

  1. 进入独享资源组网络配置页面。

    1. 登录DataWorks控制台。

    2. 在左侧导航栏,单击资源组列表,默认进入独享资源组页签。

    3. 单击已购买的独享调度资源组后的网络设置

  2. 绑定VPC。

    专有网络绑定页签,单击新增绑定,在配置页面选择上述步骤4记录的CDH集群所在VPC、可用区、交换机、安全组。

  3. 配置Host。

    Host配置页签,单击批量修改,在对话框中配置为上述步骤2中记录的Host地址信息。阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技

Step3:在DataWorks中新增CDH集群配置

只有工作空间管理员才能进行新增CDH集群配置操作,操作时请使用拥有空间管理员权限的账号。

  1. 进入项目空间管理页面。

    1. 登录DataWorks控制台。

    2. 在左侧导航栏,单击工作空间列表

    3. 单击目标工作空间后的管理

  2. 在工作空间管理页面,单击开源集群 > CDH集群

  3. CDH集群配置页面单击立即新增,在新增CDH集群配置对话框中,填写上述步骤Step2:配置网络联通中记录的组件地址信息。

    阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技其中:

    • 集群名称:可自定义集群名称。

    • 版本信息:根据实际情况选择对应的CDH和组件版本。

    • 地址信息:根据上述步骤中记录的地址信息填写。其中:

      • Yarn的jobhistory.webapp.address信息:yarn.resourcemanager.address地址的端口修改为8088即为jobhistory.webapp.address

      • Presto的JDBC地址:Presto非CDH默认组件,需要根据实际部署情况填写访问地址。

  4. 上传配置文件并授权给其他工作空间。

    阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技

  5. 配置访问身份的映射关系。

    如果您希望在运行任务时,对不同云账号在CDH集群内可访问的数据进行数据权限隔离,则可开启Kerberos账号(principal)认证,并配置云账号Kerberos账号的权限映射关系。

    说明

    Kerberos账号为CDH集群的访问账号。CDH集群通过Sentry或Ranger组件为Kerberos账号进行不同权限的配置,实现数据权限隔离。与Kerberos账号存在映射关系的云账号拥有相同的CDH集群数据访问权限。请填写格式为实例名@领域名的Kerberos账号(principal),例如,cdn_test@HADOOP.COM。

    阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技

  6. 单击确定,完成新增CDH集群配置。

    完成新增CDH集群配置后,已授权的工作空间中可新增此CDH引擎,用于后续编辑并运行数据开发等任务。

Step4:在DataWorks中新增CDH引擎

  1. 在管理中心页面,单击工作空间

  2. 计算引擎信息区域的CDH页签单击增加实例,在弹窗中配置实例信息。

    新增引擎实例时,可选择使用快捷模式安全模式访问模式,安全模式可以实现不同云账号运行任务时的数据权限隔离。不同访问模式的配置界面如下:

    • 快捷模式的实例信息配置。阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技

    • 安全模式的实例信息配置。阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技

    1. 填写实例显示名称

    2. 选择访问模式

      • 快捷模式

        该访问模式使用便捷,多个云账号对应一个集群账号,多个账号均可访问同一个集群账号内的数据,无法实现不同云账号运行任务时的数据权限隔离。

      • 安全模式

        该访问模式允许您配置云账号与CDH集群账号的身份映射关系,实现不同云账号运行任务时的数据权限隔离。

    3. 选择上述新增的CDH集群配置。

      如果上一步访问模式选择快捷模式,则此处选择未开启Kerberos认证的CDH集群。如果访问模式选择安全模式,则此处需要选择已开启Kerberos认证的CDH集群。您可以创建工作空间查看CDH集群是否开启Kerberos认证。

    4. 设置访问集群的认证信息。

      • 快捷模式

        当前仅支持指定特定账号,建议使用admin或hadoop账号。该账号仅用于下发任务。

      • 安全模式

        您可以根据需求选择调度访问身份。该身份用于在任务提交调度后自动调度运行任务,并且需要配置云账号与CDH集群账号的身份映射,详情请参见配置访问身份映射。

        说明

        在DataStudio页面,运行任务所使用的身份均为当前已登录云账号映射的集群访问身份。因此,除了需要为调度访问身份配置身份映射外,建议为项目空间开发成员也配置身份映射,避免页面运行任务失败。

    5. 选择已经购买好的独享调度资源组。

    6. 单击测试连通性

      如果网络连通测试失败,可能是因为独享调度资源组没有绑定CDH集群所在的专有网络,或者独享调度资源组没有设置Host,请参见Step2:配置网络联通检查独享调度资源组的网络配置。

  3. 单击确定,创建计算引擎实例。

    此步骤会触发独享调度资源组的初始化(安装访问CDH集群的客户端以及上传配置文件),您需要等待独享资源组初始化状态准备中变成完成,CDH引擎实例才创建完成。

  4. 在创建的CDH引擎实例页面单击测试服务连通性,DataWorks会运行测试任务测试客户端和配置文件是否正确安装。

使用DataWorks进行数据开发

完成新增CDH引擎后,您就可以在DataStudio(数据开发)中创建Hive、Spark、MapReduce、Impala或者Presto任务节点,直接运行任务或者设置周期调度运行任务。以下以创建并运行一个Hive任务为例,为您介绍在DataWorks中如何进行CDH引擎的数据开发和运行。

  1. 进入数据开发页面。

    登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 创建业务流程,根据界面提示填写业务流程信息。

  3. 单击创建好的业务流程,在CDH引擎文件夹上右键选择新建节点 > CDH Hive

  4. 在右侧代码编辑框中编写Hive SQL,完成代码编辑后单击顶部阿里云大数据开发治理平台 DataWorks对接使用CDH与CDP-云淘科技运行图标,选择调度资源组并确认,运行完毕后可以查看Hive SQL的运行结果。

  5. 如果想要设置任务周期调度,单击右侧的调度配置,在弹窗中设置时间属性、资源属性和调度依赖,完成后单击提交任务,提交成功后任务就可以按照配置周期调度运行,调度配置详情可参见 配置基础属性。

  6. 在运维中心中可以查看提交的周期任务,在周期实例中查看任务周期调度的运行情况。详细可参见查看并管理周期任务。

运维监控配置

CDH引擎的任务支持使用DataWorks运维中心的智能监控功能,通过自定义报警规则、配置任务告警,根据设置的报警规则自动触发任务运行异常报警。自定义报警规则操作可参见规则管理,配置任务告警操作可参见基线管理。

数据质量规则配置

在DataWorks上使用CDH引擎时,可使用DataWorks的数据质量服务进行数据查、对比、质量监控、SQL扫描和智能报警等功能,数据质量服务的详细操作可参见数据质量概述。

数据地图配置

在DataWorks上使用CDH引擎时,可使用DataWorks的数据地图服务采集CDH集群中Hive数据库、表、字段、分区元数据,便于实现全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。

说明

当前仅支持Hive数据库。

DataWorks上数据地图功能的详细介绍与配置指导可参见数据地图概述。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:http://www.yunxiaoer.com/166300.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云ECS云服务器更换镜像部署LNMP环境-云淘科技

    LNMP分别代表Linux、Nginx、MySQL、PHP。本文介绍为已购ECS实例更换镜像,以部署LNMP环境的操作步骤。 前提条件 已在实例安全组的入方向添加规则并放行80端口。 若尚未添加规则,请先添加安全组规则。 规则方向 授权策略 协议类型 端口范围 优先级 授权类型 授权对象 入方向 允许 自定义TCP 80/80 1 IPv4地址段访问 允许访…

    2023年12月9日
  • 阿里云大数据开发治理平台 DataWorksHDFS数据源-云淘科技

    HDFS是一个分布式文件系统,为您提供读取和写入HDFS双向通道的功能,本文为您介绍DataWorks的HDFS数据同步的能力支持情况。 支持的版本 目前不支持阿里云文件存储HDFS版。 使用限制 离线读 使用HDFS Reader时,请注意以下事项: 由于连通默认资源组到HDFS的网络链路比较复杂,建议您使用独享数据集成资源组完成数据同步任务。您需要确保您…

  • 阿里云日志服务SLS时序模式-云淘科技

    您可以在创建统计图表时开启时序模式,用于更直观展示查询分析结果的变化趋势。本文介绍时序模式的基本概念、优势、使用限制和配置案例。 基本概念 重要 目前,只有线图Pro版本和流图Pro版本支持时序模式。 时序模式用于展示一组或多组数据在一个连续时间段上的变化情况,并且支持合并多个查询分析结果,更加直观、详细地展示查询分析结果的变化趋势。 __time__字段是…

    2023年12月10日
  • DataWorks为何我在oss上上传了一个文件, 这个有什么方法检查是哪个环节出了问题吗?-云小二-阿里云

    DataWorks为何我在oss上上传了一个文件, 但是我OSS配置离线同步, 每次读取这个文件都是说文件不存在, 这个有什么方法检查是哪个环节出了问题吗?我配置的文件路径就是最简单的相对路径了, 检查了桶是同一个。 以下为热心网友提供的参考意见 1)建议是右上角小扳手 找到”开发“oss数据源 从中复制bucket等信息 再去oss找到这个地址的文件 下载…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云日志服务SLS数据结构-云淘科技

    本文介绍数据加工语法相关的数据结构及其说明。 基本数据结构 基本数据结构的不同类型和说明如下表所示: 类型 说明 整数 用于设置字段值或者函数的参数传递。 例如e_set(“f1”, 100)表示设置字段f1的值为100。 浮点 用于设置字段值或者函数的参数传递。 例如e_set(“f1”, 1.5)表示设置字段f1的值为1.5。 字符串(String) 字…

    阿里云日志服务SLS 2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。