详情页标题前

阿里云ECS云服务器在GPU实例上部署NGC环境-云淘科技

详情页1

本文以搭建TensorFlow深度学习框架为例介绍如何在GPU实例部署NGC环境

前提条件

  • 打开NGC网站,注册NGC账号。

  • 登录NGC网站,获取NGC API Key并保存到本地。

    说明

    登录NGC容器环境时需要验证您的NGC API Key。

背景信息

  • NGC(NVIDIA GPU CLOUD)是NVIDIA开发的一套深度学习生态系统,可以使开发者免费访问深度学习软件堆栈,建立适合深度学习的开发环境。

    目前NGC在阿里云gn5实例作了全面部署,并且在镜像市场提供了针对NVIDIA Pascal GPU优化的NGC容器镜像。通过部署镜像市场的NGC容器镜像,开发者能简单快速地部署NGC容器环境,即时访问优化后的深度学习框架,极大程度缩减产品开发以及业务部署的时间,实现开发环境的预安装;同时支持调优后的算法框架,并且保持持续更新。

  • NGC网站提供了目前主流深度学习框架不同版本的镜像(例如Caffe、Caffe2、CNTK、MxNet、TensorFlow、Theano、Torch),您可以选择需要的镜像部署环境。

  • 支持部署NGC环境的实例规格族包括:

    • gn4、gn5、gn5i、gn6v、gn6i、gn6e、gn7i、gn7e、gn7s

    • ebmgn5i、ebmgn6i、ebmgn6v、ebmgn6e、ebmgn7i、ebmgn7e、ebmgn7ex、sccgn7ex

操作步骤

本文以gn5实例为例,为您演示创建GPU实例和部署NGC环境的操作步骤。

  1. 创建一台gn5实例。

    具体操作,请参见自定义购买实例。其主要配置参数说明如下:

    配置参数

    说明

    地域

    只能选择华北1(青岛)、华北2(北京)、华北3(张家口)、华北5(呼和浩特)、华东1(杭州)、华东2(上海)、华南1(深圳)。

    实例

    选择gn5实例规格。

    镜像

    1. 云市场镜像页签下,单击从云市场获取更多选择(含操作系统)

    2. 在弹出的镜像市场页面,输入NVIDIA GPU Cloud VM Image并单击搜索

    3. 找到对应镜像后并单击使用

    公网IP

    选择分配公网IPv4地址

    说明

    如果这里没有分配公网IP地址,则在实例创建成功后,需要绑定EIP地址。具体操作,请参见绑定EIP。

    安全组

    选择一个安全组。安全组里必须开放TCP 22端口。如果您的实例需要支持HTTPS或DIGITS 6服务,必须开放TCP 443(用于HTTPS)或TCP 5000(用于DIGITS 6)端口。

  2. 登录ECS管理控制台,记录已创建实例的公网IP地址。

  3. 连接GPU实例。

    根据创建实例时选择的登录凭证选择以下任一方式连接GPU实例:

    • 使用密码验证连接ECS实例

    • 使用SSH密钥对验证连接ECS实例

  4. 按界面提示输入NGC官网获取的NGC API Key后按回车键,即可登录NGC容器环境。

    阿里云ECS云服务器在GPU实例上部署NGC环境-云淘科技

  5. 运行nvidia-smi命令。

    您能查看当前GPU的信息,包括GPU型号、驱动版本等,如下图所示。阿里云ECS云服务器在GPU实例上部署NGC环境-云淘科技

  6. 搭建TensorFlow深度学习框架。

    1. 登录NGC网站,在左侧导航栏,单击Containers

    2. Containers页面,在搜索区域输入TensorFlow后,选择并单击TensorFlow

      阿里云ECS云服务器在GPU实例上部署NGC环境-云淘科技

    3. TensorFlow镜像页面,单击Copy Image Path,下载对应版本的TensorFlow镜像。

      以下载tensorflow:18.03镜像为例,TensorFlow镜像路径为nvcr.io/nvidia/tensorflow:18.03-py3。

    4. 查看下载的镜像。

      docker image ls                   
    5. 运行容器,完成TensorFlow开发环境的部署。

      nvidia-docker run --rm -it nvcr.io/nvidia/tensorflow:18.03-py3              

      阿里云ECS云服务器在GPU实例上部署NGC环境-云淘科技

  7. 执行以下命令,简单测试TensorFlow。

    python
    import tensorflow as tf
    hello = tf.constant('Hello, TensorFlow!')
    sess = tf.Session()
    sess.run(hello)

    如果TensorFlow正确加载了GPU设备,返回结果如下图所示。阿里云ECS云服务器在GPU实例上部署NGC环境-云淘科技

  8. 执行以下命令,保存TensorFlow镜像的修改。

    docker commit   -m "commit docker" CONTAINER_ID  nvcr.io/nvidia/tensorflow:18.03-py3
    # CONTAINER_ID可通过docker ps命令查看。

    重要

    请您妥善保存TensorFlow镜像的修改,否则会导致下次登录时配置丢失。

腾讯云1折,限时活动,即将结束: 马上收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

转转请注明出处:https://www.yunxiaoer.com/150974.html

(0)
上一篇 2023年12月9日 下午4:39
下一篇 2023年12月9日 下午4:39
详情页2

相关推荐

  • 阿里云ECS云服务器CreateDeploymentSet-云淘科技

    调用CreateDeploymentSet在指定的地域内创建一个部署集。 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。 请求参数 名称 类型 是否必选 示例值 描述 Action String 是 CreateDeploymentSet 系统规定…

    阿里云服务器 2023年12月9日
  • 阿里云容器服务ACK容器服务ACK发行版概述-云淘科技

    简介 容器服务ACK发行版,是阿里云针对异构IaaS环境发布的Kubernetes发行版,使用者可通过阿里云ACR免费获取完整内容并获得社区支持。其核心组件经过阿里云容器服务ACK和阿里巴巴集团核心业务场景的大规模生产环境验证和安全检查,具备安全性与可靠性。 容器服务ACK发行版作为完整的Kubernetes发行版,通过阿里云开源的应用打包交付工具Seale…

    阿里云容器服务 2023年12月10日
  • 阿里云日志服务SLSLogtail最佳实践-云淘科技

    本文介绍Logtail采集相关的最佳实践。 分类 文档链接 安装部署 使用OOS批量安装或升级Logtail 采集 通过Logtail跨阿里云账号采集日志 通过Logtail跨阿里云账号采集容器日志 通过Logtail采集Zabbix数据 采集企业内网服务器日志 主机场景下如何使用Logtail采集超大规模文件 Kubernetes挂载PVC日志采集的轻量级…

    阿里云日志服务SLS 2023年12月10日
  • 阿里云ECS云服务器自助建站方式汇总-云淘科技

    本文汇总了各类型网站的部署方式,便于您自助搭建网站。 搭建环境 阿里云云服务器ECS提供了多种镜像,您可以通过云市场镜像快速部署环境,也可以通过操作系统镜像创建服务器后手动搭建运维环境。搭建环境教程如下所示。 部署LNMP环境 Nginx是一款小巧而高效的Web服务器软件,可帮您在Linux系统下快速方便地搭建出LNMP Web服务环境。其中LNMP分别代表…

    阿里云服务器 2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 阿里云ECS云服务器更换镜像部署LNMP环境-云淘科技

    LNMP分别代表Linux、Nginx、MySQL、PHP。本文介绍为已购ECS实例更换镜像,以部署LNMP环境的操作步骤。 前提条件 已在实例安全组的入方向添加规则并放行80端口。 若尚未添加规则,请先添加安全组规则。 规则方向 授权策略 协议类型 端口范围 优先级 授权类型 授权对象 入方向 允许 自定义TCP 80/80 1 IPv4地址段访问 允许访…

    2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。