详情页标题前

阿里云大数据开发治理平台 DataWorksDataWorks On MaxCompute使用说明-云淘科技

详情页1

DataWorks基于云原生大数据计算服务MaxCompute轻松构建离线数仓分析系统;MaxCompute通过DataWorks采用可视化方式,进行任务工作流的配置、周期性调度执行及元数据管理,保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上使用MaxCompute的基本说明。

前提条件

  • 已开通DataWorks,详情请参见开通DataWorks服务。
  • 已开通MaxCompute,详情请参见开通MaxCompute服务。
  • 已创建DataWorks工作空间,详情请参见创建工作空间。

背景信息

DataWorks on MaxCompute的基本开发流程如下图。阿里云大数据开发治理平台 DataWorksDataWorks On MaxCompute使用说明-云淘科技DataWorks on MaxCompute的相关开发说明如下。

序号 说明 相关文档
1 DataWorks上进行MaxCompute任务开发,除DataWorks侧产品费用外,还会产出其他产品侧费用。 费用说明
2 DataWorks上进行MaxCompute任务开发前,您需要先确认所需资源并准备正式开发所需的必要操作。 环境准备
3 DataWorks提供DataWorks产品级与模块级权限控制,以及MaxCompute引擎资源的可视化权限申请与审批能力。 权限控制
4 DataWorks数据开发与运维中心提供MaxCompute数据同步、数据加工任务的周期调度。 任务开发运维
5 DataWorks提供MaxCompute元数据管理与数据治理能力。 数据治理
6 DataWorks提供开放能力,帮助您快速实现各类应用系统对接DataWorks,并进行数据流程管控、数据治理和运维,及时响应各应用系统对接DataWorks的业务状态变化。 开放能力

费用说明

DataWorks数据开发与运维中心提供MaxCompute数据同步、数据加工任务的周期调度,不仅包含DataWorks相关费用,同时会产生产品侧其他费用,具体如下。

DataWorks相关费用

以下费用会体现在DataWorks产品相关账单中。DataWorks计费详情请参见DataWorks计费项说明。

  • DataWorks版本费用

    进行任务开发前,您需先开通DataWorks。如果开通的是增值版本的DataWorks(例如,企业版),则在开通时需支付相应增值版本的版本费用。

  • 任务调度的调度资源费用

    任务开发完成后,进行任务调度时需使用调度资源。您需按需购买调度资源组(例如,包年包月的独享调度资源组、按量付费的公共调度资源组),支付相应的资源组费用。

  • 数据同步的同步资源费用

    运行数据同步任务时,除调度资源外,还需使用数据同步资源。您需按需购买数据同步所需的资源组(例如,包年包月的独享数据集成资源组、按量付费的公共数据集成(调试)资源组),支付相应的资源组费用。

说明

  • DataStudio界面使用运行、带参运行功能执行的任务,不会收取调度费用。
  • 没有实际执行成功的任务及空跑的任务不收取调度费用。

您可参考DataWorks调度任务下发逻辑,以辅助了解上述计费说明。

非DataWorks相关费用

以下费用不会体现在DataWorks产品相关账单中。

重要 其他产品收费情况由对应产品的计费逻辑决定,您可查看对应产品的计费文档了解详情。以MaxCompute为例,计费详情请参见MaxCompute计费项说明。任务开发运行过程中可能会产生的其他费用,包含但不限于:

  • 数据库费用

    数据同步时,读写上下游数据库中的数据,可能会产生数据库费用。

  • 计算和存储费用

    运行计算引擎任务时,可能会产生计算引擎的计算和存储费用。例如,运行一个MaxCompute的SQL任务,新建表并写入表数据,可能会产生MaxCompute的计算和存储费用。

  • 网络服务费用

    连通DataWorks和其他相关产品的网络环境时,可能会产生网络服务费用。例如,使用高速通道、共享带宽、EIP等产品连通网络时,会产生相应产品的服务费用。

环境准备

在DataWorks上进行MaxCompute任务开发前,您需根据业务需求购买相应DataWorks版本及所需资源组,并完成相关MaxCompute引擎绑定及开发环境的准备工作,具体如下表。

资源准备

DataWorks提供具备丰富产品能力的增值版本,以及租户共享的公共调度资源组以满足基本调度要求。同时,也支持基于业务量与时效性,结合实际业务开发需要选择租户独享的调度资源组。

类别 描述 相关文档
版本选择 DataWorks基础版服务可满足MaxCompute开发中基本的数据上云、数据开发与调度生产、简单的数据治理工作,若需获取更专业的数据治理、数据安全解决方案,可选择相应的增值版本服务。 DataWorks增值版本对比及版本升级说明
资源组选择 DataWorks提供租户共享的公共调度资源组(按量计费),以满足基本调度要求,并且支持基于业务量与时效性,结合实际业务开发需要选择租户独享的调度资源组(包年包月)。

  • 根据业务量与时效性选择
    • 如果您的业务量较小,并仅需满足基本调度要求,可购买按量付费的公共调度资源组。
    • 如果您的业务量较大,为保障业务正常运行,可购买包年包月的独享调度资源组。
  • 根据业务场景选择

    如果开发时需访问其他网络环境,但公共调度资源组无法保障网络连通性,可购买独享调度资源组。

  • 使用公共调度资源组
  • 新增和使用独享调度资源组

开发环境准备

您需先在DataWorks工作空间绑定MaxCompute引擎,绑定后才可在数据开发(DataStudio)进行数据开发工作,并以工作空间为单位管理空间成员以便进行协同开发。

类别 描述 相关文档
引擎绑定环境准备 基于DataWorks进行计算引擎任务周期性调度前,您需将MaxCompute计算引擎项目绑定至DataWorks,作为DataWorks的底层计算引擎。您可

创建DataWorks工作空间后,您需为工作空间绑定MaxCompute引擎,绑定后才可创建该类引擎节点进行数据开发。

绑定MaxCompute引擎
协同开发环境准备 为保障RAM用户以工作空间为单位进行协同开发,需将进行协同开发的RAM用户添加为当前工作空间的成员,并授予其开发角色。 工作空间添加成员

权限控制

DataWorks为您提供了产品级与模块级的权限控制,并支持使用可视化方式申请与审批MaxCompute引擎资源的相关权限。权限控制相关介绍如下。

数据访问与权限控制

您可通过ODPS SQL节点或临时查询节点,查询MaxCompute表数据,简单模式工作空间无法做到细粒度权限控制及开发生产隔离,本文以标准模式工作空间示例说明。

  • 权限预设情况说明RAM用户被添加至工作空间成为空间成员后,其数据访问权限预设情况如下。
    权限类别 描述
    MaxCompute开发项目权限 DataWorks通过空间级预设角色与开发环境MaxCompute引擎Role的映射关系,让被授予空间角色的RAM用户(子账号)拥有该角色映射的开发引擎权限,默认拥有开发环境对应的引擎项目权限,但无生产环境对应的引擎项目权限。
    MaxCompute生产项目权限 除被授予调度访问身份的RAM用户(子账号)拥有生产环境MaxCompute项目较大权限外,其他RAM用户(子账号)没有生产环境项目权限。如需操作生产表,请前往安全中心申请权限。

    DataWorks为您提供了默认的审批流程,同时,也支持管理者自定义审批流程。

    更多关于MaxCompute数据访问权限控制说明,请参见MaxCompute数据权限控制详情。

  • 数据访问行为说明MaxCompute支持跨项目查询表,因此,在数据开发(DataStudio)界面可通过指定项目名称的方式,跨项目查询DataWorks工作空间中的生产数据。跨项目访问表的方式及各界面执行所使用的账号说明,请见下表。说明
    • 不同环境绑定的引擎项目及环境配置的执行账号,可查看工作空间引擎绑定信息,详情请参见绑定MaxCompute引擎。
    • DataWorks标准模式工作空间下,开发环境默认使用任务执行者个人身份执行任务,生产调度环境默认使用某云账号执行任务,即调度访问身份。详情请参见绑定MaxCompute引擎。
    代码示例开发环境(数据开发、开发环境运维中心)执行代码生产环境(生产环境运维中心)执行代码
    访问开发项目中的开发表:

    select col1 from projectname_dev.tablename;
    使用任务执行者个人云账号访问开发表。

    • RAM用户(子账号)执行相关任务,则使用RAM用户(子账号)个人云账号访问开发表。
    • 阿里云主账号执行相关任务,则使用阿里云主账号访问开发表。
    使用调度访问身份访问开发表。
    访问生产项目中的生产表:

    select col1 from projectname.tablename;
    使用任务执行者个人云账号访问生产表。说明 由于生产数据安全控制,个人云账号默认无权限访问生产表,需前往安全中心进行申请。DataWorks提供默认审批流程,支持管理者自定义审批流程。 使用调度访问身份访问生产表。
    在目标类型环境(例如,开发环境)执行语句,访问相应环境中的表(即开发表):

    select col1 from tablename;
    在开发环境执行时,使用任务执行者个人云账号访问身份,访问开发引擎中目标表。 在生产环境执行时,使用调度访问身份,访问生产引擎中目标表。

功能模块权限控制

进行数据开发前,您可为用户授权指引授予工作空间成员不同空间角色,让其拥有不同的操作权限。权限类型如下:

  • 通过RAM Policy权限体系,管理DataWorks功能模块(例如,不允许用户访问数据地图)与DataWorks控制台的权限(例如,允许用户删除工作空间)。
  • 通过RBAC权限模型,管理DataWorks空间级模块(例如,允许用户进入数据开发执行相关开发操作)与全局模块的使用权限(例如,禁止用户访问数据保护伞模块)。

阿里云大数据开发治理平台 DataWorksDataWorks On MaxCompute使用说明-云淘科技

任务开发与运维

DataWorks为您提供了多个功能模块,您可在数据开发(DataStudio)中进行调度任务的开发,并在开发完成后进入生产运维中心进行调度任务的监控运维。同时,提供了任务开发与发布的流程管控,助力您规范开发操作,保障开发过程的安全性。

任务开发

任务开发包含的主要操作如下。

操作 描述 相关文档
节点开发 DataWorks将MaxCompute计算引擎的能力进行封装,您可基于MaxCompute引擎节点进行数据开发。无需接触复杂的命令行,便可在DataWorks中实现各类任务的周期性调度。说明 DataWorks通过业务流程管理节点,您需要在新建节点前,先新建业务流程。
  • 节点代码定义:MaxCompute语法
  • 创建并使用MaxCompute表
  • 创建ODPS SQL节点
  • 创建SQL组件节点
  • 创建ODPS Spark节点
  • 创建PyODPS 2节点
  • 创建PyODPS 3节点
  • 创建ODPS Script节点
  • 创建ODPS MR节点
  • 创建并使用MaxCompute资源
  • 创建MaxCompute函数
您可结合DataWorks的通用类型节点和引擎计算节点进行复杂的逻辑处理。主要节点如下:

  • 用于管控业务流程的虚拟节点。
  • 用于外部系统触发调度的HTTP触发器节点、OSS对象检查节点和FTP CHECK节点。
  • 用于节点上下游参数传递的赋值节点与参数节点。
  • 用于循环执行代码的do-while节点,遍历、判断上游赋值结果的for-each节点,分支节点等。
  • 其他节点。例如,通用Shell节点,MySQL数据库节点等。
  • 虚拟节点
  • HTTP触发器节点
  • OSS对象检查节点
  • FTP Check节点
  • 赋值节点
  • 参数节点
  • do-while节点
  • for-each节点
  • 分支节点
节点调度配置 若节点任务需进行周期性调度运行,可定义该节点的调度相关属性,包括节点调度依赖、调度参数等。 配置基础属性
节点调试 为保障生产任务高效运行,避免计算资源浪费,建议您在任务发布前先对任务进行测试运行,执行冒烟测试与代码评审。
  • 调试代码片段:快捷运行
  • 执行冒烟测试
  • 代码评审
节点发布 任务需发布至生产调度后,才会周期调度任务运行。因此,您需在任务开发完成后,将任务发布至生产环境。

发布后,您可前往运维中心 > 周期任务界面查看并管理该调度任务。

  • 发布任务
  • 查看并管理周期任务
(可选)管理节点任务 您可对节点任务进行上线及下线、批量修改调度相关属性等操作。 批量操作

任务运维

任务调度运维包含的主要操作如下。

操作 描述 相关文档
任务调度 发布至生产环境的任务,将根据您定义的调度时间自动调度运行。

您可在运维中心 > 周期实例页面,查看任务周期调度的执行结果。同时,也可在生产环境针对任务进行测试与补数据操作,根据业务需要上下线任务、冻结任务,使当前节点及其下游节点暂停调度。

  • 运维中心概述
  • 周期任务基本运维操作
数据质量监控 监控调度任务产出的表数据质量,可通过配置表的质量监控规则实现表数据监控。 数据质量概述
智能监控 提供调度任务执行状态与任务执行资源组使用情况的监控能力。您可通过配置智能监控规则,监控任务运行状态与任务执行资源组的使用情况。 智能监控概述

流程管控

DataWorks提供了任务开发与发布的流程管控(例如,代码审批、强制冒烟测试、自定义校验逻辑等),把控任务相关操作的正确性及安全性,详情请参见流程管控与操作检查。

数据治理

引擎绑定完成后,DataWorks将自动采集您引擎下的元数据,您可前往数据地图进行查看;同时,也可进入数据治理中心,查看DataWorks检测的待治理问题,进行相关数据的治理。

开放能力

DataWorks支持开放能力,帮助您快速实现各类应用系统对接DataWorks、方便快捷的进行数据流程管控、数据治理和运维,及时响应应用系统对接DataWorks的业务状态变化。

类别 描述 相关文档
OpenAPI DataWorks开放平台的OpenAPI功能,为您提供开放API能力,通过开放API实现本地服务和DataWorks服务的交互,提升企业大数据处理效率,减少人工操作和运维工作,降低数据风险和企业成本。 开放API(OpenAPI)
开放事件 DataWorks开放平台的开放事件(OpenEvent)功能,为您提供消息订阅服务,通过订阅DataWorks事件状态、应用系统对接DataWorks、实时获取相关内容的状态变化,帮助您及时响应相应事件,满足个性化决策需求。 开放事件(OpenEvent)
扩展程序 DataWorks通过OpenEvent为您提供消息推送订阅功能,您可将服务程序注册为DataWorks的扩展程序,通过扩展程序来卡点并响应订阅的事件消息,实现通过扩展程序对特定事件进行消息通知与流程管控。 扩展程序概述

附录:DataWorks与MaxCompute的关系

说明 简单模式工作空间仅一个生产环境,并且仅对应MaxCompute一个项目,本文以标准模式工作空间进行说明。DataWorks为MaxCompute提供任务调度、元数据管理、数据治理、数据安全管控等能力,但任务计算、数据存储仍在MaxCompute中。标准模式工作空间下,DataWorks为不同环境绑定不同的MaxCompute项目,实现DataWorks开发环境与生产环境存储、资源等隔离。

  • DataWorks引擎绑定及查看各环境绑定的计算引擎,详情请参见绑定MaxCompute引擎。
  • DataWorks调度任务下发逻辑,详情请参见DataWorks调度任务下发逻辑。

阿里云大数据开发治理平台 DataWorksDataWorks On MaxCompute使用说明-云淘科技

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/166650.html

(0)
上一篇 2023年12月10日 上午9:11
下一篇 2023年12月10日 上午9:12
详情页2

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。