详情页标题前

阿里云人工智能平台PAIAI加速:使用EPL实现AI训练加速-云淘科技

详情页1

Easy Parallel Library (EPL)是高效易用的分布式模型训练框架,深度集成多种训练优化技术,提供了简单易用的API实现各种并行化策略。您可以使用EPL实现低成本、高性能分布式模型训练。本文为您介绍如何使用EPL在DLC中实现高效易用分布式TensorFlow训练。

前提条件

在开始执行操作之前,请确认您已经完成以下准备工作:

  • 已为DLC服务关联角色授权,详情请参见云产品依赖与授权:DLC。

  • 已安装镜像环境:官方镜像或社区镜像(NVIDIA TensorFlow 1.15或TensorFlow-GPU 1.15)。

    • 如果您使用的是官方镜像(官方镜像(由PAI团队提供优化的镜像)),可以直接使用EPL,无需安装。

    • 如果您使用的是社区镜像(社区镜像(由社区提供的标准镜像)),则需要先安装EPL才能使用。关于如何安装EPL,详情请参见安装EPL。

    说明

    如果您使用的是DLC平台,建议镜像选择社区镜像:tensorflow-training:1.15-gpu-py36-cu100-ubuntu18.04。您可以在DLC中提交执行命令安装EPL,无需单独安装。

步骤一:代码配置

您可以使用EPL编写TensorFlow分布式训练代码,详情请参见快速开始。

您也可以使用EPL代码示例快速开始分布式TensorFlow训练,本次使用resnet50训练数据配置代码集,您可以使用该代码集提交TensorFlow训练任务,且每次进行模型训练时会自动克隆最新的版本,关于如何配置代码集,具体操作步骤如下所示。

  1. 进入代码配置页面。

    1. 登录PAI控制台。

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择AI资产管理 > 代码配置,进入代码配置页面。

  2. 代码集管理页面,单击新建代码配置

  3. 新建代码配置页面配置参数,并单击提交

    其中Git地址为https://github.com/alibaba/EasyParallelLibrary.git,代码分支为main。其他参数配置详情请参见代码配置。

步骤二:启动训练任务

  1. 进入新建任务页面。

    1. 登录PAI控制台。

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 分布式训练(DLC),在分布式训练任务页面中单击新建任务,进入新建任务页面。

  2. 在创建任务页面,配置基本信息任务资源配置,并单击提交

    • 基本信息参数配置如下所示。阿里云人工智能平台PAIAI加速:使用EPL实现AI训练加速-云淘科技

      参数

      使用示例值

      资源类型

      公共资源组。

      任务名称

      训练任务名称。

      节点镜像

      选择社区镜像tensorflow-training:1.15-gpu-py36-cu100-ubuntu18.04

      任务类型

      TensorFlow。

      代码配置

      请选择步骤一:代码配置中配置的代码集EPL。

      代码分支

      main。

      执行命令

      apt update
      apt install libnccl2 libnccl-dev
      cd /root/code/EasyParallelLibrary/
      pip install .
      cd examples/resnet
      bash scripts/train_dp.sh

      具体参数配置详情请参见提交任务(通过控制台)。

    • 任务资源配置参数配置如下所示。

      参数

      使用示例值

      节点数量

      2。您可以根据实际训练需求配置该参数。

      节点配置

      GPU页签选择ecs.gn6v-c8g1.2xlarge

      最长运行时长

      2小时。

      具体参数配置详情请参见提交任务(通过控制台)。

  3. 单击查看详情,您可以查看训练任务的执行情况。

    阿里云人工智能平台PAIAI加速:使用EPL实现AI训练加速-云淘科技

后续如果您想了解关于EPL的更多内容,详情请参见EPL。

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家

阿里云企业补贴进行中: 马上申请

腾讯云限时活动1折起,即将结束: 马上收藏

同尘科技为腾讯云授权服务中心。

购买腾讯云产品享受折上折,更有现金返利:同意关联,立享优惠

转转请注明出处:https://www.yunxiaoer.com/164714.html

(0)
上一篇 2023年12月10日 上午6:41
下一篇 2023年12月10日 上午6:43
详情页2

相关推荐

  • 阿里云人工智能平台PAI分布式训练加速TorchAcc概述-云淘科技

    PAI-TorchAcc(Torch Accelerator)是基于PyTorch的训练加速框架,通过GraphCapture技术将PyTorch动态图转换为静态执行图,然后进一步基于计算图完成分布式优化、计算优化,从而提高PyTorch模型训练的效率,使其更加易于使用。 技术简介 TorchAcc是动静一体的分布式训练加速框架,主要功能如下: 通过Grap…

    2023年12月10日
  • 阿里云人工智能平台PAILLM on DLC- Megatron on DLC最佳实践-云淘科技

    预训练大语言模型面对来自于模型规模和数据规模的多重挑战,为了解决这些问题,PAI提供了在DLC上使用Megatron-LM进行大语言模型预训练的最佳实践。该实践通过准备镜像环境与训练数据、调整训练策略、提交与管理任务等流程,帮助您在DLC上轻松高效地预训练大语言模型。本文为您介绍该实践的使用流程。 背景信息 基本概念 语言模型(LM) 是一种利用自然文本来预…

    阿里云人工智能平台PAI 2023年12月10日
  • 阿里云人工智能平台PAIAIGC:TorchAcc提速Stable Diffusion分布式训练-云淘科技

    阿里云PAI为您提供了部分典型场景下的示例模型,便于您便捷地接入TorchAcc进行训练加速。本文为您介绍如何在Stable Diffusion分布式训练中接入TorchAcc并实现训练加速。 测试环境配置 测试环境配置方法,请参见配置测试环境。 本案例以PAI-DSW环境V100M16卡型为例,例如:节点规格选择ecs.gn6v-c8g1.16xlarge…

    2023年12月10日
  • 阿里云人工智能平台PAI在PAI平台使用数据集加速器-云淘科技

    在机器学习PAI平台创建数据集时,支持开启AI加速:数据集加速功能。您可以在创建DSW实例或提交训练任务时,直接使用已开启加速的数据集,提升数据读取效率。本文为您介绍如何在PAI平台使用数据集加速器。 前提条件 已创建数据集加速实例,具体操作,请参见创建及管理数据集加速实例。 开启数据集加速:新建数据集 在数据集管理页面创建数据集,并配置以下关键参数,更多详…

    2023年12月10日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云人工智能平台PAI快速提交MPIJob训练任务-云淘科技

    DLC是一站式的云原生深度学习训练平台,为开发者和企业提供灵活、稳定、易用和高性能的机器学习训练环境。本文为您介绍如何在DLC中使用mpirun和Deepspeed方式来提交MPIJob类型的分布式训练任务。 前提条件 已开通DLC后付费,并创建默认工作空间。具体操作,请参见开通PAI并创建默认工作空间。 已在资源组中购买灵骏智算资源并创建资源配额。具体操作…

    2023年12月10日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。