写点什么

元脑®服务器第八代新品重磅发布!创新开放架构引领算力生态多元共进

InfoQ

  • 2024-10-26
    北京
  • 本文字数:3134 字

    阅读完需:约 10 分钟

元脑®服务器第八代新品重磅发布!创新开放架构引领算力生态多元共进

10 月 24 日,元脑®服务器第八代新品发布会在京举行。会上,浪潮信息重磅发布元脑®服务器第八代算力平台,基于开放架构设计,业界率先实现“一机多芯”,同一架构支持英特尔®至强®6 处理器及 AMD EPYC™ 9005 系列处理器,在促进多元生态共进的同时,具备更全面的智能能力和更高能效,更好支撑 AI 大模型开发与应用创新。实测数据表明,在 LLaMA2 大模型 AI 推理场景中,整机性能较上代最大提升 3 倍。


元脑服务器第八代算力平台拥有 23 款新品,基于先进的计算、存储架构创新,在 CPU 总线互联带宽、内存带宽及容量上全面优化,单机核心数最多到 576C,主频高达 5.0GHz,内存带宽提升高达 136%。元脑服务器第八代算力平台一经发布,就打破多项 SPEC 国际性能测试纪录。


浪潮信息、信通院、Intel、AMD、阿里云、国家新能源汽车技术创新中心、金山云代表共同发布

一机多芯,开放标准促进多元算力生态进化


随着大模型能力的持续提升,生成式人工智能在企业侧、行业侧的落地正在提速,智能应用不断涌现。日趋丰富的 AI 应用场景也衍生出新的算力挑战,不同 AI 应用的典型特征及系统需求存在差异,需要多元的算力生态予以满足。伴随着通用处理器在芯片架构、指令集等方面对 AI 的优化增强,在 AI 推理端的巨大应用潜力使得 CPU 在 AI 时代变得更加重要,需要系统创新释放通用算力在 AI 领域的应用价值。


元脑服务器第八代算力平台成为全面且强大算力生态的载体,源于浪潮信息的诸多创新系统架构设计,将通过共建开放标准的方式聚集更多生态力量,使能通用算力与 AI 算力共同支撑日益多样的 AI 工作负载,加速多元算力生态进化,推动开放多元算力标准落地。


在通用算力领域,浪潮信息积极参与的开放计算模组规范(OCM),正在推动建立基于处理器的标准化算力模组单元,构建 CPU 的统一算力底座,解决多元 CPU 生态挑战问题,推动算力产业快速发展。会上发布首款基于服务器计算模组设计规范 OCM 的 NF3290G8,整机全面解耦,以 CPU、内存为核心构建最小算力单元,标准化高速/低速互联接口,实现处理器算力模组部件化,灵活支持多类型 CPU,让不同算力共享统一平台,降低算力产业创新试错成本和推广适配成本,也让多元化的应用场景能够快速找到贴合的方案。



在 AI 算力领域,浪潮信息推动开放加速规范 OAM 的生态繁荣,大幅缩减国内外加速芯片和服务器的适配周期,加速先进算力上线部署,支撑大模型及 AI 应用迭代成熟。目前,90%高端加速卡 AI 芯片基于 OAM 规范设计。会上发布基于 UBB2.0 规范开发的元脑服务器 NF5898G8,可以兼容符合 OCP 开放加速规范的多款 OAM 2.0 模组,通过全模块化的设计及极致的系统能效,满足算力的快速迭代需求,进一步加速算力融合创新。

智能增强,全面加速大模型开发与 AI 应用创新


元脑服务器第八代算力平台实现了全面的智能增强,通过搭载自研服务器操作系统云孪 KOS、AIOps 智能运维管理平台以及 AI 软件堆栈,从服务器智能,到快速构建 AI 开发环境,到作业调度和资源统一纳管,乃至智算中心智能运维,提供全面的平台软件与工具软件支持。


新平台在预警、散热、管理等方面进行了全新的智能化升级。其中,在智能预警方面,全新升级内存故障智能预警修复技术 MUPR,基于对上万台服务器故障数据的建模分析和 AI 模型算法的训练,实现内存故障提前预警、内存错误实时隔离、内存故障智能修复,降低内存导致宕机故障率 80%。在智能管理方面,通过 RTOS 实时操作系统,实现开机 3 秒内智能管理调控风扇转速,降低 30%的噪音,确保散热安全。


面向大模型部署难题,新平台与服务器操作系统云孪 KOS 实现软硬协同优化,自研云孪 KOS AI 定制版简单 2 步即可实现大模型训练环境搭建,200 节点训练集群开发环境,采用 AI 定制版 20 分钟即可完成部署上线可用,极大提升了大模型开发部署效率。

创新液冷设计,让 AI 更绿色更节能


AI 的快速发展实际上带动了数据中心耗电量的激增,数据中心的耗电量非常惊人,中国算力中心耗电量将从 2023 年的 1500 亿千瓦时,飙升到 2030 年将超过 4000 亿千瓦时,这其中绝大多数都是由于 AI 的发展所带来。浪潮信息服务器产品线总经理赵帅介绍称,液冷散热将会是数据中心的必然发展趋势。


浪潮信息“All in 液冷”战略已实现全线元脑服务器产品支持冷板式液冷, 面向数据中心实现从核心部件到整体方案的全方位覆盖。


最新发布的两相液冷 130kW 液冷整机柜,基于两相冷板和负压液冷的创新,实现液冷整机柜安全、解耦、高密和标准化,提供更高效的解热能力、更灵活的节点支持、更安全的漏液防护以及标准化液冷部件,解热能力高达每平方厘米 200W 以上,以先进原生液冷技术支撑超大规模智算中心建设。


浪潮信息提供液冷数据中心全生命周期整体解决方案,具有从室外一次侧冷源到室内二次侧 CDU、液冷连接系统、液冷服务器等全线布局,为用户全方位打造绿色节能数据中心交钥匙工程。



元脑服务器新平台在部件节能方面,也进行了系统化创新。比如服务器电源全面应用钛金电源,电源转换效率达 98%以上;全局部件温度监控,包括网卡、NVME、M.2 等全部的部件都可以进行精准的温度识别,并通过单风扇级的精细化调控策略精准控制。另外针对关键核心部件、高功耗零件设计独立风道配合单风扇的散热调控;同时针对风扇研发高效能风扇,改良风扇充磁方式、改进扇叶曲面设计,提升风扇散热效率 20%;另外还可以根据 CPU 负载瞬时调整 CPU 频率,节省 CPU 的能耗。

元脑服务器第八代提供最先进的计算、存储和架构创新


赵帅在新品发布会上介绍说,服务器作为一个算力的承载,作为支撑企业和社会信息化的核心基础设施,其重要性是不言而喻的。元脑服务器新算力平台通过开放的设计理念,实现了一机多芯,全面解耦,落地了多元计算标准算力模组


智能时代需要强大的算力。应用需求的复杂多变,需要不同类型的算力才能精准匹配计算场景,应用场景的多元发展对芯片提出了更高的性能需求。也对算力生态提出更高的要求。浪潮信息一直秉持多元异构的发展理念,以应用为导向,将最优的算力资源整合进整机系统,做了大量的系统性设计,最终形成算效先进,且稳定可靠的统一的服务器平台。



激发创新活力,开源开放是核心和源泉。通过更好的开源开放,可以聚合产业生态,联合积极探索大规模数据中心基础设施的可持续发展创新方案,推动创新技术的各种产业化落地。正是秉承着开源开放多元发展的理念,第八代服务器新品实现了全栈的开源开放,从部件、节点、整机柜到固件,实现了各样产品的快速落地,并带动整个产业生态的发展。


在开放标准方面,浪潮信息的整机柜参考 OCP 的整机柜标准规范和 OCTC 的标准,采用行业里通用的 BusBar 的接口以及 UQDB 的快接头,同时对 UQDB 的接头进行了互换安全性的认证和测试,最大程度保障各个部件标准可用。在固件方面,元脑服务器新品基于 OpenBMC 开源方案自研的 InBry 固件,满足多元异构算力的高效运行,更灵活、更智能。


AI 助力业务创新,算力先行,持续完善“平台化+模块化”的产品设计


浪潮信息副总裁刘军在会议上也介绍了元脑服务器的迭代细节。他说,推进 AI 应用,发展人工智能,浪潮信息一直坚持以应用为导向、以系统为核心的整体战略,解决在 AI 的算力、算法、数据、生态等各方面遇到的挑战。浪潮信息发布元脑服务器第八代算力新产品,旨在加速推动 AI 应用落地。算力是 AI 的三要素之一,是算法创新的使能力量。算力不仅来源于芯片,更来源于系统。


当前 AI 算力的发展,面临着高功耗、低算效的问题,从电力到算力、从算力到智力的转变效率都不断降低。要解决这些问题不能仅从芯片等单点问题入手,而应该从应用需求为导向出发,以系统的方法来推动系统的创新,发展高算效、高能效、多元融合的智能算力平台。


智算时代是开源开放的时代,浪潮信息以“平台化+模块化”的产品设计,持续完善一机多芯产品架构,全面支持 OAM/OCM 算力的开放标准,让不同算力共享统一平台,降低算力产业创新试错成本和适配成本,也让多元化的应用场景都能快速找到适配的方案。

2024-10-26 17:005766

评论

发布
暂无评论
发现更多内容

什么时候该减少质量投入?

QualityFocus

质量管理 软件测试 测试思维

「架构实战营」模块一作业

hxb

「架构实战营」

一起玩转LiteOS组件:TinyFrame

华为云开发者联盟

LiteOS 串口 LiteOS组件 TinyFrame

CVE-2021-4034 Linux Polkit 权限提升漏洞挖掘思路解读

腾讯安全云鼎实验室

云原生 漏洞分析

音视频技术如何为元宇宙提供全真稳的全新体验之漫话腾讯云音视频 | 社区征文

liuzhen007

音视频 1月月更 新春征文

写了这么多年后端,你知道事务脚本模式吗?

蜜糖的代码注释

Java 互联网 后端

模块六

Only

架构师实战营 「架构实战营」

IM单聊和群聊中的在线状态同步应该用“推”还是“拉”?

BeeWorks

Linux之ps命令

入门小站

Linux

架构训练营模块一作业

苍狼

[架构实战营]-架构实训一

邹玉麒

「架构实战营」

华为云FusionInsight连续三次获得第一,加速释放数据要素价值

华为云开发者联盟

大数据 数据湖 云原生 FusionInsight 华为云

复古冰雪传奇H5游戏详细图文架设教程

echeverra

游戏开发 游戏

Centos7下Nginx编译安装与脚本安装的记录

edd

模块一作业--

Leo

「架构实战营」

WorkPlus赋能数字政府迈入发展新阶段

BeeWorks

ChaosCraft:和女朋友一起来 Hackathon 表演绝活丨滑滑蛋团队访谈

PingCAP

研发转岗产品经理,有什么需要注意的呢?

石云升

产品经理 产品思维 1月月更

LabVIEW仪表盘识别(实战篇—6)

不脱发的程序猿

机器视觉 图像处理 LabVIEW 仪表盘识别

微信朋友圈架构设计

刘洋

#架构实战营

获奖作品公布,快来看看有没有你!

InfoQ写作社区官方

新春征文 热门活动

架构实战营5期模块1作业

lovles

「架构实战营」

小程序电商业务微服务拆分及基础设施选型

swallowluo

架构实战营 #架构实战营 「架构实战营」

我的架构学习之始

浪飞

ReactNative进阶(三十六):ES8 中 async 与 await 使用方法详解

No Silver Bullet

Async React Native await 1月月更

Android Studio开发flutter快捷键及文本显示技巧。

坚果

flutter 1月月更

git 使用总结

麦可

git 开发工具

JavaScript 之 Proxy

编程三昧

JavaScript 前端 Proxy 1月月更

微信业务架构 & 学生管理系统架构

凌波微步

「架构实战营」

华山论“件”:Kafka、RabbitMQ、RocketMQ技能大比拼

华为云开发者联盟

kafka RocketMQ RabbitMQ 华为云 消息中间件

高效管理邮件的方式

NinetyH

工具软件 办公效率 邮件管理

元脑®服务器第八代新品重磅发布!创新开放架构引领算力生态多元共进_AI&大模型_InfoQ精选文章