速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

集群算力提升 3 倍,腾讯云发布新一代高性能计算集群

  • 2023-04-16
    北京
  • 本文字数:1892 字

    阅读完需:约 6 分钟

集群算力提升3倍,腾讯云发布新一代高性能计算集群

4 月 14 日,腾讯云正式发布面向大模型训练的新一代 HCC(High-Performance Computing Cluster)高性能计算集群。该集群采用最新一代腾讯云星星海自研服务器,搭载了 NVIDIA H800 Tensor Core GPU,并提供业界目前最高的 3.2T 超高互联带宽。

 

实测结果显示,腾讯云新一代集群的算力性能较前代提升高达 3 倍。

 

去年 10 月,腾讯完成首个万亿参数的 AI 大模型——混元 NLP 大模型训练。在同等数据集下,将训练时间由 50 天缩短到 11 天。如果基于新一代集群,训练时间将进一步缩短至 4 天。

 

大模型进入万亿参数时代,对算力的需求陡增。在单体服务器计算能力有限的情况下,需要将上千台服务器相连,打造大规模、分布式的高性能计算集群。腾讯云新一代集群通过对单机算力、网络架构和存储性能进行协同优化,能够为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。

 

计算层面,服务器的单机性能是集群算力的基础。在非稀疏规格情况下,新一代集群单 GPU 卡支持输出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。针对大模型训练场景,腾讯云星星海服务器采用 6U 超高密度设计,相较行业可支持的上架密度提高 30%;利用并行计算理念,通过 CPU 和 GPU 节点的一体化设计,将单点算力性能提升至最强。

 


网络层面,计算节点间存在海量的数据交互需求,随着集群规模扩大,通信性能会直接影响训练效率。腾讯自研的星脉网络,为新一代集群带来了业界最高的 3.2T 的超高通信带宽。节点内外统一的 AllReduce 通信带宽,实现网络和算力的最大协同。实测结果显示,搭载同样的 GPU,最新的 3.2T 星脉网络相较 1.6T 网络,能让集群整体算力提升 20%。




基于多轨道聚合的无阻塞网络架构、主动拥塞控制和定制加速通信库,腾讯云能提供业界领先的集群构建能力,支持单集群高达十万卡级别的组网规模。在超大集群场景下,仍然能保持优秀的通信开销比和吞吐性能,满足大模型训练以及推理业务的横向扩展。

 

同时,腾讯自研高性能集合通信库 TCCL,基于星脉网络硬件平台深度优化,在全局路径规划、拓扑感知亲和性调度、网络故障实时告警/自愈等方面融入了定制设计的解决方案。相对业界开源集合通信库,为大模型训练优化 40%负载性能,消除多个网络原因导致训练中断问题。

 

存储层面,训练场景下,几千台计算节点会同时读取一批数据集,需要尽可能缩短数据集的加载时长。新一代集群,引入了腾讯云最新自研存储架构,支持不同场景下对存储的需求。

 

COS+GooseFS 对象存储方案,提供多层缓存加速,大幅提升端到端的数据读取性能;将公开数据集、训练数据、模型结果统一存储到对象存储 COS 中,实现数据统一存储和高效流转。同时,GooseFS 按需将热数据缓存到 GPU 内存和本地盘中,利用数据本地性提供高性能访问。

 


CFS Turbo 高性能并行文件存储方案,采取多级缓存加速,基于全分布式架构,提供 100GB/s 带宽、1000 万 IOPS 的极致性能。并通过持久化客户端缓存技术,将裸金属服务器本地 NVMe SSD 和 Turbo 文件系统构成统一命名空间,实现微秒级延时,解決大模型场景大数据量、高带宽、低延时的诉求。同时,通过智能分层技术,自动对冷热数据分层,节省 80%的存储成本,提供极致的性价比。

 


底层架构之上,针对大模型训练场景,新一代集群集成了腾讯云自研的 TACO Train 训练加速引擎,对网络协议、通信策略、AI 框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。

 

腾讯混元大模型背后的训练框架 AngelPTM,也已通过腾讯云对外提供服务,帮助企业加速大模型落地。目前,腾讯混元 AI 大模型已经覆盖了自然语言处理、计算机视觉、多模态等基础模型和众多行业、领域模型。

 

在腾讯云上,企业基于 TI 平台的大模型能力和工具箱,可结合产业场景数据进行精调训练,提升生产效率,快速创建和部署 AI 应用。

 

此前,腾讯多款自研芯片已经量产。其中,用于 AI 推理的紫霄芯片、用于视频转码的沧海芯片已在腾讯内部交付使用,性能指标和综合性价比显著优于业界。其中,紫霄采用自研存算架构,增加片上内存容量并使用更先进的内存技术,消除访存能力不足制约芯片性能的问题,同时内置集成腾讯自研加速模块,减少与 CPU 握手等待时间。目前,紫霄已经在腾讯头部业务规模部署,提供高达 3 倍的计算加速性能,和超过 45%的整体成本节省。

 

目前,腾讯云的分布式云原生调度总规模超过 1.5 亿核,并提供 16 EFLOPS(每秒 1600 亿亿次浮点运算)的智算算力。未来,新一代集群不仅能服务于大模型训练,还将在自动驾驶、科学计算、自然语言处理等场景中充分应用。

 

以新一代集群为标志,基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,腾讯云正通过软硬一体的方式,打造面向 AIGC 的高性能智算网络,持续加速全社会云上创新。

2023-04-16 12:334187

评论

发布
暂无评论
发现更多内容

对于金融机构而言,为什么选择私有化IM比企业微信、钉钉更好?

WorkPlus

WebGL 及其在 WebRTC 中的应用

ZEGO即构

WebRTC WebGL 实时音视频 即构科技

微服务架构下消息服务多通道设计思路

全象云低代码

微服务 低代码 后端开发 消息中间件 后端技术

【直播回顾】OpenHarmony知识赋能第四期第三课——I2C驱动开发

OpenHarmony开发者

OpenHarmony 驱动开发

Meetup预告|云原生时代热门监控利器解析与应用

云智慧AIOps社区

运维 云原生 安全 监控工具

郑泽康:一名热爱技术的“保安”|OneFlow U

OneFlow

人工智能 机器学习 深度学习 程序人生 cuda

API成数据安全最大风险敞口 如何打赢数字时代的“数据保卫战”?

WorkPlus

一首古诗带来的图数据库大冒险

NebulaGraph

知识图谱 实践案例 分布式图数据库

数仓如何设置大小写不敏感函数

华为云开发者联盟

MySQL DWS GaussDB(DWS) 大小写不敏感函数 GUC参数

云原生时代已来,计算机教育如何因「云」而变?

阿里云弹性计算

云原生 ECS 计算机教育

从多快好省到好快省多,您的项目管理走对了吗?

禅道项目管理

项目管理

web前端培训如何用CSS来实现透明方格

@零度

CSS web前端

利用亚马逊云科技整个自用免费网盘

亚马逊云科技 (Amazon Web Services)

Builder 专栏

容器化 | K8s 部署 RadonDB MySQL Operator 和集群

RadonDB

MySQL 数据库 Kubernetes 高可用 RadonDB

ABAP 文件上/下载

Jasen Ye

upload abap download template GRAPHICS

实践丨SpringBoot整合Mybatis-Plus项目存在Mapper时报错

华为云开发者联盟

spring 容器 Spring Boot 测试 Mybatis-Plus

ABAP excel数据上传函数改造

Jasen Ye

Excel upload abap

你的“数学潜意识”原来可以被唤醒!

博文视点Broadview

如何升级到 React 18

CRMEB

大数据培训连续登录经典面试案例

@零度

大数据

java培训如何用反射做简易 Spring IOC 容器

@零度

Java springloc

速度和质量不可兼得,为什么DevOps落地如此困难?

SoFlu软件机器人

揭秘!网易有道技术岗实习生都在做什么?

有道技术团队

招聘 实习 网易有道

SeaTunnel 在 oppo 的特征平台实践 | ETL 平台数据处理集成

Apache SeaTunnel

Big Data 大数据平台 大数据开发 apache 社区 opensource

OceanBase 源码解读(九):存储层代码解读之「宏块存储格式」

OceanBase 数据库

源码剖析 oceanbase

加快云原生技术转型, 智能调度登陆华为云DevOps: 增速,节源

华为云开发者联盟

软件 DevOps 代码托管 智能调度 华为云DevOps

从HDFS的写入和读取中,我发现了点东西

华为云开发者联盟

hdfs HDFS写入 HDFS读取 文件读取

知识管理在企业竞争发展中的作用

小炮

知识管理

项目管理标准化的武林秘籍

大智若愚

团队管理 项目管理 标准化 软技能 标准框架

Facebook 开源 Golang 实体框架 Ent 现已支持 TiDB

PingCAP

2022年2月视频行业用户洞察:冬奥吸引全民关注拉动视频平台出圈

易观分析

短视频 冬奥会

集群算力提升3倍,腾讯云发布新一代高性能计算集群_大数据_Tina_InfoQ精选文章