详情页标题前

阿里云云原生大数据计算服务 MaxCompute使用Azkaban调度MaxCompute-云淘科技

详情页1

MaxCompute支持您通过Azkaban实现作业调度,帮助您高效地完成高频数据分析工作。本文以通过MaxCompute客户端执行命令(Command)的方式为例为您介绍如何使用Azkaban调度SQL作业。

背景信息

Azkaban是一套作业调度系统,可以调度Command、Hadoop MapReduce、Hive、Spark、Pig等类型作业,而且支持自定义Plugin,其中最简单而且最常用的是Command类型。更多Azkaban信息,请参见Azkaban。

您需要将待调度作业依赖的源数据、建表及导入数据脚本、查询数据脚本等以文件形式压缩后上传至Azkaban才可进一步实现调度操作。

本文中假设您需要在Azkaban上通过调度功能实现创建表、导入数据、查询数据这一套SQL处理逻辑。基于此场景,您可以设计作业、作业调度流程、各作业对应的作业文件及脚本文件如下。

阿里云云原生大数据计算服务 MaxCompute使用Azkaban调度MaxCompute-云淘科技

前提条件

在执行操作前,请确认您已满足如下条件:

  • 已下载并安装MaxCompute客户端。

    更多安装并配置MaxCompute客户端操作,请参见安装并配置MaxCompute客户端。

  • 已下载并安装Azkaban。

    更多下载并安装Azkaban操作,请参见安装Azkaban。

操作流程

  1. 步骤一:准备作业相关文件并压缩为ZIP包准备好调度作业依赖的源数据、脚本文件并压缩为ZIP包。
  2. 步骤二:将ZIP压缩包上传至Azkaban通过Azkaban项目上传压缩包文件,导入作业调度流程。
  3. 步骤三:运行Flow View运行导入的作业调度流程。
  4. 步骤四:查看Flow View运行结果查看作业调度流程运行结果。

步骤一:准备作业相关文件并压缩为ZIP包

  1. 准备作业相关数据、脚本文件并保存。基于上文的假设场景,您需要准备的文件如下:
    • 源数据。保存为TXT文件。例如emp.txt,包含的数据如下:
      7369,SMITH,CLERK,7902,1980-12-17 00:00:00,800,,20
      7499,ALLEN,SALESMAN,7698,1981-02-20 00:00:00,1600,300,30
      7521,WARD,SALESMAN,7698,1981-02-22 00:00:00,1250,500,30
      7566,JONES,MANAGER,7839,1981-04-02 00:00:00,2975,,20
      7654,MARTIN,SALESMAN,7698,1981-09-28 00:00:00,1250,1400,30
      7698,BLAKE,MANAGER,7839,1981-05-01 00:00:00,2850,,30
      7782,CLARK,MANAGER,7839,1981-06-09 00:00:00,2450,,10
      7788,SCOTT,ANALYST,7566,1987-04-19 00:00:00,3000,,20
      7839,KING,PRESIDENT,,1981-11-17 00:00:00,5000,,10
      7844,TURNER,SALESMAN,7698,1981-09-08 00:00:00,1500,0,30
      7876,ADAMS,CLERK,7788,1987-05-23 00:00:00,1100,,20
      7900,JAMES,CLERK,7698,1981-12-03 00:00:00,950,,30
      7902,FORD,ANALYST,7566,1981-12-03 00:00:00,3000,,20
      7934,MILLER,CLERK,7782,1982-01-23 00:00:00,1300,,10
      7948,JACCKA,CLERK,7782,1981-04-12 00:00:00,5000,,10
      7956,WELAN,CLERK,7649,1982-07-20 00:00:00,2450,,10
      7956,TEBAGE,CLERK,7748,1982-12-30 00:00:00,1300,,10
    • 建表并上传数据脚本。保存为.sql文件。例如upload.sql,脚本内容如下:
      drop table if exists azkaban_emp;
      create table  azkaban_emp
         (empno bigint,
          ename string,
          job string,
          mgr bigint,
          hiredate datetime,
          sal bigint,
          comm bigint,
          deptno bigint) lifecycle 1;
      tunnel upload emp.txt azkaban_emp;
    • 查询数据脚本。保存为.sql文件。例如cat_data.sql,脚本内容如下:
      select * from azkaban_emp;
    • 启动作业。保存为.job文件。例如start.job,脚本内容如下:
      #start
      type=command
      command=echo 'job start'
    • 上传数据作业。保存为.job文件。例如upload_data.job,脚本内容如下:
      #upload_data
      type=command
      dependencies=start
      command=D:/odpscmd_public/bin/odpscmd.bat -f 'upload.sql'

      command为MaxCompute客户端的本地安装路径。此处以D:/odpscmd_public/bin/odpscmd.bat作为示例。

    • 查询数据作业。保存为.job文件。例如mc.job,脚本内容如下:
      #mc.job
      type=command
      command=D:/odpscmd_public//bin/odpscmd -f 'cat_data.sql'
      dependencies=upload_data

      command为MaxCompute客户端的本地安装路径。此处以D:/odpscmd_public/bin/odpscmd.bat作为示例。

  2. 将上述文件整体压缩为ZIP包。例如压缩为demo1.zip,压缩包内的文件列表如下图所示。阿里云云原生大数据计算服务 MaxCompute使用Azkaban调度MaxCompute-云淘科技

步骤二:将ZIP压缩包上传至Azkaban

  1. 登录Azkaban。更多登录操作,请参见登录Azkaban。
  2. 创建Azkaban项目。更多创建Azkaban项目操作,请参见Create Projects。
  3. 在新创建的Azkaban项目中上传步骤一中生成的压缩包。更多上传压缩包操作,请参见Upload Projects。阿里云云原生大数据计算服务 MaxCompute使用Azkaban调度MaxCompute-云淘科技压缩包上传成功后,即可在Graph页签查看到导入后的调度流程Flow View。更多查看Flow View操作,请参见Flow View。阿里云云原生大数据计算服务 MaxCompute使用Azkaban调度MaxCompute-云淘科技

步骤三:运行Flow View

导入调度流程后,您可以在界面右上角单击Schedule/Execute Flow进入运行调度作业对话框,在Flow View页签,您可以单击右下角的Execute启动作业调度。

更多运行Flow View操作,请参见Executing Flow View。

阿里云云原生大数据计算服务 MaxCompute使用Azkaban调度MaxCompute-云淘科技

步骤四:查看Flow View运行结果

运行结束后,您可以在Execution界面的Job List页签查看各个作业的运行结果,还可以单击作业右侧的Details查看详细运行信息。

更多查看作业运行结果操作,请参见Execution。

阿里云云原生大数据计算服务 MaxCompute使用Azkaban调度MaxCompute-云淘科技

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/157854.html

(0)
上一篇 2023年12月10日 上午1:09
下一篇 2023年12月10日
详情页2

相关推荐

  • datawork+maxcompute具体的计算资源,调度情况,报错等相关信息,应该如何获取?-云小二-阿里云

    datawork+maxcompute具体的计算资源,调度情况,报错等相关信息,应该如何获取? 以下为热心网友提供的参考意见 在使用DataWorks结合MaxCompute进行大数据处理时,获取计算资源和调度情况的相关信息,以及解决报错问题,可以通过几个步骤来进行: 计算资源:在DataWorks中,您可以在数据开发(DataStudio)界面查看并管理计…

    阿里云 2024年1月7日
  • 阿里云ECS云服务器搭建多个Web站点(CentOS 7)-云淘科技

    本文介绍如何在CentOS 7系统的ECS实例上使用Nginx搭建多个Web站点。 前提条件 已注册阿里云账号。如还未注册,请先完成账号注册。 已创建分配公网IP的ECS实例,并部署了LNMP环境,具体操作请参见部署LNMP环境(CentOS 7)。 背景信息 本教程适用于熟悉Linux操作系统,希望合理利用资源、统一管理站点以提高运维效率的用户。比如,您可…

    2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云容器服务ACK自定义弹性资源优先级调度-云淘科技

    自定义弹性资源优先级调度是阿里云提供的弹性调度策略。您可以在应用发布或扩容过程中,自定义资源策略(ResourcePolicy),设置应用实例Pod被调度到不同类型节点资源的顺序。同时在缩容过程中按照原调度顺序逆序缩容。本文介绍如何使用自定义弹性资源优先级调度功能。 前提条件 Kubernetes集群为ACK Pro且版本为1.20.11及以上。关于如何升级…

    阿里云容器服务 2023年12月10日
  • 阿里云大数据开发治理平台 DataWorks上传数据-云淘科技

    DataWorks支持将本地的CSV文件或部分文本文件数据直接上传至MaxCompute表中,本文为您介绍操作步骤详情。 前提条件 已准备好用于接收本地数据的MaxCompute表。 您可以选择已创建的MaxCompute表,或者直接新创建一个MaxCompute表,建表操作可参见创建MaxCompute表。 使用限制 当前仅支持上传本地数据至MaxComp…

    2023年12月10日
  • 阿里云日志服务SLS工作原理-云淘科技

    日志服务提供时序预测功能,用于对时序数据进行自动化、智能化的预测。您可以根据预测结果判断时序数据未来的走势,提前感知系统或者业务关键指标的状态。本文介绍时序预测的背景信息、功能、调度与执行场景、使用建议等信息。 背景信息 服务在运行过程中会产生各种各样的时序数据,记录了服务的各种指标随时间的变化情况。时序数据的监控分析被广泛地应用在系统监控和故障定位中。对于…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。