详情页标题前

阿里云大数据开发治理平台 DataWorks基本概念-云淘科技

详情页1

本文为您介绍DataWorks中,工作空间、业务流程解决方案组件、任务、实例、业务日期定时时间、提交、脚本开发、资源函数和输出名称等基本概念。

工作空间

工作空间是DataWorks管理任务、成员,分配角色和权限的基本单元。工作空间管理员可以加入成员至工作空间,并赋予工作空间管理员、开发、运维、部署、安全管理员或访客角色,以实现多角色协同工作。 说明 建议您根据部门或业务板块来划分工作空间。

一个工作空间支持绑定MaxCompute、E-MapReduce和实时计算等多种类型的计算引擎实例。绑定引擎实例后,即可在工作空间开发和调度引擎任务。

业务流程

针对业务实体,抽象出业务流程的概念,帮助您从业务视角组织代码的开发,提高任务管理效率。说明 业务流程可以被多个解决方案复用。 业务流程帮助您从业务视角组织代码:

  • 支持基于任务类型的代码组织方式。
  • 支持多级子目录(建议不超过四级)。
  • 支持从业务视角查看整体的业务流程,并进行优化。
  • 支持根据业务流程组织发布和运维。
  • 提供业务流程看板,帮助您更高效地进行开发。

解决方案

您可以自定义组合部分业务流程为一个解决方案。

解决方案的优势如下:

  • 一个解决方案可以包括多个业务流程。
  • 解决方案之间可以复用相同的业务流程。
  • 组织完成的解决方案包含各类节点,提高您的使用体验。

组件

您可以将SQL中的通用逻辑抽象为组件,提高代码的复用性。

SQL代码的处理过程通常是引入一到多个源数据表,通过过滤、连接和聚合等操作,加工出新的业务需要的目标表。组件是带有多个输入参数和输出参数的SQL代码过程模板。

任务(Task)

任务是对数据执行的操作的定义,示例如下:

  • 通过数据同步节点任务,将数据从RDS同步至MaxCompute。
  • 通过MaxCompute SQL节点任务,运行MaxCompute SQL来进行数据的转换。

每个任务使用0或0个以上的数据表(数据集)作为输入,生成一个或多个数据表(数据集)作为输出。

任务主要分为节点任务(Node Task)、工作流任务(Flow Task)和内部节点(inner Node)。阿里云大数据开发治理平台 DataWorks基本概念-云淘科技

任务类型 描述
节点任务(Node Task) 一个数据执行的操作。可以与其它节点任务、工作流任务配置依赖关系,组成DAG图。
工作流任务(Flow Task) 满足一个业务场景需求的一组内部节点,组成一个工作流任务,建议工作流任务小于10个。 工作流任务内部节点,无法被其它工作流任务、节点任务依赖。工作流任务可以与其它工作流任务、节点任务配置依赖关系,组成DAG图。 说明 从DataWorks V1.0升级的任务,仍保留工作流的概念。DataWorks V2.0及以上版本已无法创建工作流任务,您可选择创建业务流程进行后续操作。
内部节点(innerNode) 工作流任务内部的节点,与节点任务的功能基本一致。您可以通过拖拽形成依赖关系,其调度周期会继承工作流任务的调度周期,无法进行单独配置。

实例(Instance)

实例是某个任务在某时某刻执行的一个快照。调度系统中的任务,经过调度系统、手动触发运行后,会生成一个实例。实例中会有任务的运行时间、运行状态和运行日志等信息。

例如设置每天2:00运行Task1实例,调度系统会在每天23:30根据周期节点定义好的时间,自动生成一个快照,即Task1第二天2:00运行的实例。到第二天2:00时,如果判断上游实例已经完成,Task1实例便会如期启动运行。 说明 您可进入运维中心的周期任务运维,查询实例的相关信息。

业务日期与定时时间

  • 业务日期

    指昨天,在离线计算场景下,交易日期为业务发生的日期。DataWorks默认取调度时间内,任务预期调度运行时间的前一天(即昨天)的日期为业务日期,精确到天。例如,今天统计前一天的营业额,此处的前一天,指交易发生的日期,也就是业务日期。

  • 定时时间

    指今天,即某业务数据加工任务的预期执行时间。DataWorks默认取调度时间内,任务预期调度运行的时间点(即今天)为定时时间,精确到秒。任务预期执行时间,与实际开始执行时间并非完全一致。任务实际开始执行时间受多方因素影响。

提交(Submit)

提交是指开发的节点任务、业务流程,从DataWorks开发环境发布至调度系统的过程。完成提交后,相应的代码、调度配置全部合并至调度系统中,调度系统根据相关配置进行调度操作。 说明 未提交的节点任务、业务流程不会进入调度系统。

脚本开发(Script)

脚本开发是提供给数据分析使用的一个代码存储空间。脚本开发的代码无法发布到调度系统,无法进行调度参数配置,仅可以进行部分数据查询分析的工作。

资源、函数

MaxCompute引擎使用的资源和函数,详情请参见资源和函数。

输出名称

输出名称:每个任务(Task)输出点的名称。它是您在单个租户(阿里云账号)内设置依赖关系时,用于连接上下游两个任务(Task)的虚拟实体。

当您在设置某任务与其它任务形成上下游依赖关系时,必须根据输出名称(而不是节点名称或节点ID)来完成设置。设置完成后该任务的输出名也同时作为其下游节点的输入名称。阿里云大数据开发治理平台 DataWorks基本概念-云淘科技说明 输出名称可以作为某个Task在同租户内,区别于其它Task的唯一概念对象,每个节点的输出名称默认为工作空间名称.系统生成9位数字.out。您可以对Task增加自定义输出名,但需要注意输出节点名称在租户内不允许重复。

元数据

元数据是数据的描述数据,可以为数据说明其属性(名称、大小、数据类型等),或结构(字段、类型、长度等),或其相关数据(位于何处、拥有者、产出任务、访问权限等)。DataWorks中元数据主要指库、表相关的信息,元数据管理对应的主要应用是数据地图。

补数据

完成周期任务的开发,将任务提交发布之后,任务会按照调度配置定时运行。如果您希望对历史时间段内的数据进行计算,您可以使用补数据功能。补数据操作生成的补数据实例将按照指定的业务日期运行。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:http://www.yunxiaoer.com/166346.html

(0)
上一篇 2023年12月10日
下一篇 2023年12月10日
详情页2

相关推荐

  • 阿里云负载均衡EnableDeletionProtection – 开启删除保护-云淘科技

    开启指定资源的删除保护。 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。 调试调试授权信息下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下: 操作:是指具…

    阿里云负载均衡 2023年12月10日
  • 阿里云大数据开发治理平台 DataWorks智能诊断-云淘科技

    您可以使用智能诊断功能对任务进行全链路分析,当任务运行不符合预期时,您可以使用该功能快速定位问题。 功能概述 智能诊断功能可以基于以下维度对任务进行诊断分析: 全链路分析: 检查上游任务运行情况:上游任务运行失败时,将阻塞当前任务的运行。智能诊断功能可以帮助您迅速定位上游任务运行失败的原因。 检查是否已到达任务设置的定时运行时间。 说明 在数据开发模块中定义…

    2023年12月10日
  • 阿里云RDS数据库DeleteDBInstanceEndpoint – 删除实例的Endpoint-云淘科技

    该接口用于删除RDS MySQL集群系列实例的Endpoint。 接口说明 适用引擎 RDS MySQL 相关功能文档 注意 使用该接口前,请仔细阅读功能文档,确保完全了解使用接口的前提条件及使用后造成的影响后,再进行操作。 删除集群只读地址 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI E…

    阿里云数据库 2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云人工智能平台PAIUpdateServiceInstance – 更新服务实例属性-云淘科技

    更新服务实例属性,目前只支持隔离服务实例。 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。 调试调试授权信息下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如…

    阿里云人工智能平台PAI 2023年12月10日
  • 阿里云云原生大数据计算服务 MaxCompute函数-云淘科技

    您可以编写自定义函数并在MaxCompute SQL中使用它们。 基本操作 list_functions():获取项目空间下的所有函数。 exist_function():用于判断是否存在某个函数。 get_function():用于获取函数对象。 create_function():创建函数。 delete_function():删除函数。 创建函数 使用…

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。