本文为您介绍如何搭配使用通用训练资源公共资源组和DataWorks,进行任务定时提交。
前提条件
-
购买DataWorks独享调度资源组,详情请参见新增和使用独享调度资源组。
-
为DLC授权,详情请参见云产品依赖与授权:DLC。
操作流程
您可以按照如下流程实现定时自动提交任务:
-
步骤一:创建独享调度资源组
-
步骤二:绑定归属的工作空间
-
步骤三:安装部署工具包DLC
-
步骤四:创建工作流
-
步骤五:提交任务测试
-
步骤六:执行定时调度
步骤一:创建独享调度资源组
在DataWorks控制台创建独享调度资源组,详情请参见新增和使用独享调度资源组。
步骤二:绑定归属的工作空间
独享调度资源组需要绑定归属的工作空间,才可以在对应的工作空间下选择该资源组,详情请参见绑定归属工作空间。
步骤三:安装部署工具包DLC
安装DLC工具包,需要联系管理员授权。
-
创建命令。
-
登录DataWorks控制台。
-
单击左侧导航栏中的资源组列表,默认进入独享资源组页面。
-
单击相应调度资源后的图标
,选择运维助手。
-
在运维助手页面,单击创建命令。
-
在创建命令页面,配置参数。
参数
描述
命令名称
命令的名称。
命令描述
命令的简要描述,便于区分各命令。
命令类型
选择手动输入。
命令内容
输入如下命令。
wget -P /home/admin/usertools/tools/ https://dlc-release.oss-cn-zhangjiakou.aliyuncs.com/console/public/latest/dlc --no-check-certificate chmod +x /home/admin/usertools/tools/dlc
安装目录
安装至/home/admin/usertools/tools/目录。
超时时间
命令执行的超时时间,单位为秒。如果命令执行超时,则系统强制结束命令。建议配置为60秒。
-
单击创建。
-
-
执行命令。
-
在运维助手页面,单击上一步已创建命令操作列下的运行命令。
-
在运行命令面板,单击运行。
-
-
查看命令执行情况。
-
在运维助手页面下方的列表,单击相应命令后的查看结果。
-
在命令执行结果对话框,查看命令执行情况。如果执行进度为100%,则DLC工具包安装成功。
-
步骤四:创建工作流
-
创建业务流程,详情请参见创建业务流程。
-
在业务流程页面,拖拽通用 > Shell至右侧画布。
-
在新建节点页面的名称文本框,输入部署节点,然后单击确认。
步骤五:提交任务测试
因为定时提交任务基于原有任务节点,所以定时提交之前,需要进行冒烟测试,创建初始任务节点。如果已经存在初始节点,则直接执行步骤六。
-
编辑部署脚本。
-
在业务流程页面,双击已创建的Shell节点(部署节点)。
-
在Shell节点页面,输入如下命令。
# 生成任务描述文件。 cat < jobfile name=dataworks-job workers=1 worker_spec=ecs.g6.large worker_image=registry-vpc.cn-hangzhou.aliyuncs.com/pai-dlc/pytorch-training:1.7.1-gpu-py37-cu110-ubuntu18.04 command=echo $(date) EOF # 提交任务。 /home/admin/usertools/tools/dlc submit pytorchjob\ --access_id= \ --access_key= \ --endpoint=pai-dlc.cn-hangzhou.aliyuncs.com \ --region=cn-hangzhou \ --job_file=./jobfile \ --interactive
jobfile是描述任务相关信息的文件,具体配置细节请参见提交命令。 endpoint参数与地域的对应关系如下。
地域
Endpoint
华东2(上海)
pai-dlc.cn-shanghai.aliyuncs.com
华北2(北京)
pai-dlc.cn-beijing.aliyuncs.com
华东1(杭州)
pai-dlc.cn-hangzhou.aliyuncs.com
华南1(深圳)
pai-dlc.cn-shenzhen.aliyuncs.com
中国(香港)
pai-dlc.cn-hongkong.aliyuncs.com
新加坡
pai-dlc.ap-southeast-1.aliyuncs.com
马来西亚(吉隆坡)
pai-dlc.ap-southeast-3.aliyuncs.com
德国(法兰克福)
pai-dlc.eu-central-1.aliyun.cs.com
-
-
运行脚本。
-
在Shell节点页面,单击页面上方的
图标。
-
在警告对话框,单击继续运行。
-
在运行参数页面,选择调度资源组为已创建的独享资源组。
-
单击确定。
运行完成后,即可生成一个任务。您可以前往PAI-DLC集群控制台的任务列表页面,查看任务。
-
步骤六:执行定时调度
-
执行调度任务。
-
在Shell节点页面,单击页面右侧的调度配置。
-
在调度配置页面的时间属性区域,选择调度周期和重跑属性。
-
在调度依赖区域,单击依赖的上游节点后的使用工作空间根节点。
-
配置依赖关系,详情请参见配置同周期调度依赖。
-
单击Shell节点页面上方的
图标,保存配置。
-
单击Shell节点页面上方的
图标,提交调度任务。
-
-
查看定时调度的运行实例。
-
在Shell节点页面,单击右上方的运维。
-
在运维中心页面,选择周期任务运维 > 周期实例。
-
在实例详情页面,查看模型自动部署的定时时间。
-
选择操作列下的更多 > 查看运行日志,查看每次定时提交任务的运行日志。
-
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家
阿里云企业补贴进行中: 马上申请
腾讯云限时活动1折起,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠
转转请注明出处:https://www.yunxiaoer.com/163949.html