AICon议程上新60%,阿里国际、360智脑、科大讯飞、蔚来汽车分享大模型探索与实践 了解详情
写点什么

集群算力提升 3 倍,腾讯云发布新一代高性能计算集群

  • 2023-04-16
    北京
  • 本文字数:1892 字

    阅读完需:约 6 分钟

集群算力提升3倍,腾讯云发布新一代高性能计算集群

4 月 14 日,腾讯云正式发布面向大模型训练的新一代 HCC(High-Performance Computing Cluster)高性能计算集群。该集群采用最新一代腾讯云星星海自研服务器,搭载了 NVIDIA H800 Tensor Core GPU,并提供业界目前最高的 3.2T 超高互联带宽。

 

实测结果显示,腾讯云新一代集群的算力性能较前代提升高达 3 倍。

 

去年 10 月,腾讯完成首个万亿参数的 AI 大模型——混元 NLP 大模型训练。在同等数据集下,将训练时间由 50 天缩短到 11 天。如果基于新一代集群,训练时间将进一步缩短至 4 天。

 

大模型进入万亿参数时代,对算力的需求陡增。在单体服务器计算能力有限的情况下,需要将上千台服务器相连,打造大规模、分布式的高性能计算集群。腾讯云新一代集群通过对单机算力、网络架构和存储性能进行协同优化,能够为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。

 

计算层面,服务器的单机性能是集群算力的基础。在非稀疏规格情况下,新一代集群单 GPU 卡支持输出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。针对大模型训练场景,腾讯云星星海服务器采用 6U 超高密度设计,相较行业可支持的上架密度提高 30%;利用并行计算理念,通过 CPU 和 GPU 节点的一体化设计,将单点算力性能提升至最强。

 


网络层面,计算节点间存在海量的数据交互需求,随着集群规模扩大,通信性能会直接影响训练效率。腾讯自研的星脉网络,为新一代集群带来了业界最高的 3.2T 的超高通信带宽。节点内外统一的 AllReduce 通信带宽,实现网络和算力的最大协同。实测结果显示,搭载同样的 GPU,最新的 3.2T 星脉网络相较 1.6T 网络,能让集群整体算力提升 20%。




基于多轨道聚合的无阻塞网络架构、主动拥塞控制和定制加速通信库,腾讯云能提供业界领先的集群构建能力,支持单集群高达十万卡级别的组网规模。在超大集群场景下,仍然能保持优秀的通信开销比和吞吐性能,满足大模型训练以及推理业务的横向扩展。

 

同时,腾讯自研高性能集合通信库 TCCL,基于星脉网络硬件平台深度优化,在全局路径规划、拓扑感知亲和性调度、网络故障实时告警/自愈等方面融入了定制设计的解决方案。相对业界开源集合通信库,为大模型训练优化 40%负载性能,消除多个网络原因导致训练中断问题。

 

存储层面,训练场景下,几千台计算节点会同时读取一批数据集,需要尽可能缩短数据集的加载时长。新一代集群,引入了腾讯云最新自研存储架构,支持不同场景下对存储的需求。

 

COS+GooseFS 对象存储方案,提供多层缓存加速,大幅提升端到端的数据读取性能;将公开数据集、训练数据、模型结果统一存储到对象存储 COS 中,实现数据统一存储和高效流转。同时,GooseFS 按需将热数据缓存到 GPU 内存和本地盘中,利用数据本地性提供高性能访问。

 


CFS Turbo 高性能并行文件存储方案,采取多级缓存加速,基于全分布式架构,提供 100GB/s 带宽、1000 万 IOPS 的极致性能。并通过持久化客户端缓存技术,将裸金属服务器本地 NVMe SSD 和 Turbo 文件系统构成统一命名空间,实现微秒级延时,解決大模型场景大数据量、高带宽、低延时的诉求。同时,通过智能分层技术,自动对冷热数据分层,节省 80%的存储成本,提供极致的性价比。

 


底层架构之上,针对大模型训练场景,新一代集群集成了腾讯云自研的 TACO Train 训练加速引擎,对网络协议、通信策略、AI 框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。

 

腾讯混元大模型背后的训练框架 AngelPTM,也已通过腾讯云对外提供服务,帮助企业加速大模型落地。目前,腾讯混元 AI 大模型已经覆盖了自然语言处理、计算机视觉、多模态等基础模型和众多行业、领域模型。

 

在腾讯云上,企业基于 TI 平台的大模型能力和工具箱,可结合产业场景数据进行精调训练,提升生产效率,快速创建和部署 AI 应用。

 

此前,腾讯多款自研芯片已经量产。其中,用于 AI 推理的紫霄芯片、用于视频转码的沧海芯片已在腾讯内部交付使用,性能指标和综合性价比显著优于业界。其中,紫霄采用自研存算架构,增加片上内存容量并使用更先进的内存技术,消除访存能力不足制约芯片性能的问题,同时内置集成腾讯自研加速模块,减少与 CPU 握手等待时间。目前,紫霄已经在腾讯头部业务规模部署,提供高达 3 倍的计算加速性能,和超过 45%的整体成本节省。

 

目前,腾讯云的分布式云原生调度总规模超过 1.5 亿核,并提供 16 EFLOPS(每秒 1600 亿亿次浮点运算)的智算算力。未来,新一代集群不仅能服务于大模型训练,还将在自动驾驶、科学计算、自然语言处理等场景中充分应用。

 

以新一代集群为标志,基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,腾讯云正通过软硬一体的方式,打造面向 AIGC 的高性能智算网络,持续加速全社会云上创新。

2023-04-16 12:334074

评论

发布
暂无评论
发现更多内容

大厂前端面试考什么?

loveX001

JavaScript

京音平台-一起玩转SCRM之电销系统

京东科技开发者

架构设计 系统 scrm 企业号 1 月 PK 榜 电销

表格集算表高性能原理——怎样实现纯前端百万行数据秒级响应

葡萄城技术团队

如何实现发送评论时总数自动加一?

Towify

前端高频react面试题整理

beifeng1996

React

社招前端react面试题整理

beifeng1996

React

每日一题之Vue数据劫持原理是什么?

bb_xiaxia1998

Vue

程序员该如何用“高科技”智能地教狗狗上厕所

风铃架构日知录

人工智能 深度学习 程序人生 后端 系统架构

阿里云开源大数据平台EMR全面升级 性能最高可提升6倍

阿里云大数据AI技术

大数据 云原生 大数据 开源

从零手写react-router

helloworld1024fd

JavaScript

醉三皇成为第12届北京国际网络电影展官方指定用酒品牌

联营汇聚

带你用20张图了解什么是 JVM 运行时数据区

风铃架构日知录

Java 程序员 JVM 码农 内存

Java Netty框架自建DNS代理服务器教程

小小怪下士

Java 程序员 Netty DNS

如何使用API Hub 实现一个图片列表

Towify

React面试:谈谈虚拟DOM,Diff算法与Key机制

beifeng1996

React

百度前端经典vue面试题整理

bb_xiaxia1998

Vue

WWW 是否应该属于 URL?

devpoint

Cookie url SEO www

每日一题之Vue的异步更新实现原理是怎样的?

bb_xiaxia1998

Vue

分布式是大数据处理的万能药?

jiangxl

前端二面经典vue面试题指南

bb_xiaxia1998

Vue

前端必会手写面试题合集

helloworld1024fd

JavaScript

《隐私计算白皮书(2022年)》概览

京东科技开发者

技术 安全 隐私保护 白皮书 企业号 1 月 PK 榜

年终盘点丨最受开发者欢迎的文章 TOP20

阿里巴巴云原生

阿里云 云原生

高级前端常考手写面试题合集

helloworld1024fd

JavaScript

简单谈谈Redis中的几种java客户端以及优缺点!

风铃架构日知录

Java redis 程序员 程序人生 客户端

排障定位时间缩短一半, 博睿数据如何赋能青岛住房公积金管理中心

博睿数据

APM AIOPS 智能运维 博睿数据 精选案例

react的jsx和React.createElement是什么关系?面试常问

beifeng1996

React

SOA 和微服务有何区别?

江南一点雨

Java 微服务 springboot SOA

从零开始实现一个Promise

helloworld1024fd

JavaScript

那些炫酷的CSS文字效果之诗词《兔》

南城FE

CSS css3 前端 动画

安畅携手阿里云共建Landing Zone方案,助力企业上云无忧

云布道师

阿里云

集群算力提升3倍,腾讯云发布新一代高性能计算集群_大数据_Tina_InfoQ精选文章