详情页标题前

腾讯云高性能计算集群概述

详情页1

背景信息

在当前人工智能趋势下,自然语言模型越大则提供的准确性越高。但由于成本、时间及代码无优化集成等问题,导致较大的模型难以训练。目前 GPT-3 的模型参数已经达到175B,模型参数的增长速度远超 GPU 显存的增长速度,数据并行和模型并行等传统优化方法在超大模型和过千亿参数面前也显现出了诸多瓶颈。如下图所示:

腾讯云高性能计算集群概述

为了使这些超大模型能够使用已有的硬件服务器训练,对应的解决方案需要在计算,通信和开发效率之间进行优化和权衡。Deepspeed 是微软开源的深度学习训练优化库,Deepspeed 通过 transformer kernel 性能优化、ZeRO(The Zero Redundancy Optimizer)显存优化及节省、提升模型 scale 能力等多个层面,对大模型训练做了详细的分析以及极致的性能优化,已经成为了超大 NLP 模型预训练的“利器”。

优化方案

TI-Deepspeed 是腾讯云 TI 平台团队在对 Deepspeed 调研和实践的基础上,从性能和易用性两方面对 Deepspeed 框架进行了相关优化的分布式训练框架。通过 TI-Deepspeed 显存节省技术、TI-Deepspeed 单机性能优化、TI-Deepspeed 多机可拓展性优化,并根据 NLP 大模型不同的参数规模沉淀出了完整且高性能的分布式训练方案。腾讯云 TI 平台团队旨在通过“一套框架“+”三套最佳实践”更好的服务有 NLP 预训练需求的客户。

训练平台

面向大规模机器学习训练场景,腾讯云推出了搭载 NVIDIA® Tesla® V100 GPU 和 100G 标准 RDMA 网卡的高性能裸金属云服务器 HCCG5v 实例,TI-Deepspeed 最佳实践选用该机型实例作为底层物理硬件平台。大规模训练集群以 HCCG5v 实例为节点,通过 RDMA 互联,提供了高带宽和极低延迟的网络服务,能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。如下图所示:

腾讯云高性能计算集群概述



优化成果

百亿参数模型优化结果
腾讯云 TI 平台使用8台 HCCG5v 实例(共64卡 V100)训练83亿和100亿参数规模 GPT-2, 通过使用 zero-2 纯数据并行,每卡可以达到近 40TFLOPs 的性能。如下表所示:

参数 layers=50 hidden size=4096attention head=32sequence_length=1024max-position-embeddings=1024
优化结果 global_bsz bsz model_parallel_size forward backward step iteration(ms) TFlops/GPU
64*6=384 6 1 2464.89 9288.21 2400 13200 520/13.2 = 39.3


千亿参数模型训练优化结果
腾讯云 TI 平台使用 zero-stage3 结合 cpu offload,在8台 HCCG5v 实例(共64卡 V100)的有限资源下训练千亿模型,通过增大 batchsize,隐藏通信开销,提升训练效率。如下表所示:

参数 layers=480 hidden size=4096attention head=32sequence_length=1024vocabulary_size= 50258→50304
优化结果 bsz zero cpu-offload mp dp globsz iteration TFlops/GPU gpu/cpu 内存占用
1 stage3 no 8 8 8 83s 1.2
0 stage3 yes 8 8 48 85.7s 6.8 – 7  显存接近极致,内存220G

实践步骤

实践具体操作步骤请参见 部署及实践。
官网1折活动,限时活动,即将结束,速速收藏
同尘科技为腾讯云授权服务中心。
购买腾讯云产品享受折上折,更有现金返利。同意关联立享优惠

转转请注明出处:https://www.yunxiaoer.com/146577.html

(0)
上一篇 2023年12月9日 上午11:47
下一篇 2023年12月9日
详情页2

相关推荐

  • 腾讯云TDSQL-C MySQL版事件告警简介

    简介 腾讯云事件总线(EventBridge)是一款安全,稳定,高效的无服务器事件管理平台,作为流数据和事件的自动收集、处理、分发管道,通过可视化的配置,通过设置事件规则可实现对 TDSQL-C MySQL 版异常事件的监控,帮助用户获取应用异常状态以及时优化和运维。 产品功能 事件收集:提供标准事件投递接口,完成云产品事件、SaaS 服务、自定义应用事件等…

    腾讯云 2023年12月9日
  • 阿里云人工智能平台PAI5分钟使用EAS一键部署Stable Diffusion AIGC绘画-云淘科技

    AIGC中的Stable Diffusion文生图模型是开源流行的跨模态生成模型,用于生成与给定文本对应的图像。通过EAS,您可以一键部署AIGC Stable Diffusion SDWebUI绘画的AI-Web应用,以便在该应用中进行模型推理验证,实现自动生成图像等功能。 背景信息 本文主要按照以下操作流程,介绍如何在EAS中使用镜像部署AI-Web应用…

    阿里云人工智能平台PAI 2023年12月10日
  • 腾讯云Serverless SSR本地项目改造-云淘

    操作场景 对于部分传统框架,您需要先对项目入口进行简单改造,才可以完成迁移。腾讯云支持您改造 Express、Koa、Next.js 和 Nuxt.js、Flask、Laravel 框架。您可以选择对应框架查看改造指引(未列出的框架不需要修改代码,可直接迁移): 改造指引 Express 框架 打开 Express 项目的入口文件 sls.js(或 app.…

    2023年12月9日
  • 信息流广告,信息流部分建议宽度830px,只针对默认列表样式,顺序随机
  • 腾讯云对象存储查询对象元数据

    简介 本文档提供关于查询对象元数据操作相关的 API 概览以及 SDK 示例代码。 API 操作名 操作描述 HEAD Object 查询对象元数据 查询对象的元数据信息 查询对象元数据 功能说明 查询 Object 的 Meta 信息(HEAD Object)。 方法原型 func (s *ObjectService) Head(ctx context.C…

    腾讯云 2023年12月9日
  • 腾讯云对象存储文件处理费用

    对象存储基于数据万象(Cloud Infinite,CI)提供 文件处理功能。为用户提供哈希值计算等云上文件处理操作,满足用户更多的在线处理场景。文件处理费用分为文件哈希值计算、文件解压和多文件打包压缩,具体介绍如下: 计费项 计费项说明 计费周期 适用的计费方式 文件哈希值计算 指使用文件哈希值计算服务而产生的费用,按照文件大小收费。 按月结算 按量计费 …

    腾讯云 2023年12月9日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
本站为广大会员提供阿里云、腾讯云、华为云、百度云等一线大厂的购买,续费优惠,保证底价,买贵退差。