写点什么

2024 开放计算中国峰会浪潮信息赵帅:开放计算推动 AI 产业创新发展

InfoQ

  • 2024-08-09
    北京
  • 本文字数:2394 字

    阅读完需:约 8 分钟

2024开放计算中国峰会浪潮信息赵帅:开放计算推动AI产业创新发展

智能时代,大模型正在重构 AI 基础设施,数据中心的算力、网络、存储、管理、能效如何应对大模型 Scaling law 带来的全向 Scale 的创新挑战?


在 2024 开放计算中国峰会现场,浪潮信息服务器产品线总经理赵帅在《开放计算:以技术创新之力,驱动智算发展》的主题演讲中,给出了他的答案。



他强调了开放计算在推动 AI 创新中的关键作用。开源开放是 AI 创新的核心动力,尤其是在开源大模型领域,开源模型的能力在短时间内得到了显著提升。如今,已有 2/3 的 AI 模型选择开源,这极大地推动了 AI 技术的发展和应用的普及。


赵帅也详细介绍了浪潮信息在开放多元算力标准、管理、基础设施标准等方面的贡献:开放加速模组和开放网络实现了算力的 Scale,开放固件解决方案实现了管理的 Scale,开放标准和开放生态实现了基础设施的 Scale,未来要以开放创新加速算力系统全向 Scale,应对大模型 Scaling Law。


全球化的开放协作,全向 Scale 创新推动 AI 发展


算力、算法和数据是推动人工智能发展的三驾马车,尤其在大模型领域,这三者的协同作用尤为显著。自 Transformer 架构出现以来,大模型性能与其参数量、计算当量、数据量密切相关,这种现象被称为 Scaling Law。



随着大模型在快速迭代升级,模型能力在持续进化,模型类型也在从传统的语言模型往多模态、长序列、混合专家模型等转变,由此引发的是对 GPU domain、互联、算力等的新需求,对基础设施、算力管理、迭代升级等都提出了新的挑战。



开放加速算力“Scale Up+Scale Out” 并存发展


为应对大模型 Scaling law 对算力扩展的巨大需求(Scale up 和 Scale out),全球化的开放合作变得至关重要。


大模型的高效训练通常需要具备千卡以上高算力 AI 芯片构成的 AI 服务器系统支撑。而实现数千颗芯片互联,并让它们能够高效协同工作的前提,是解决单个服务器内部芯片的高速直联,提升 Scale up 的效率。为此,OCP 建立了 OAI(Open Accelerator Infrastructure)小组,对更适合超大规模深度学习训练的 AI 加速卡形态进行了定义,发布了开放加速规范 OAM。开放加速规范 OAM 的出现,解决了单个服务器内多元 AI 加速卡形态和接口不统一,高速互连效率低,研发周期长等问题,得到了众多企业的支持与参与,包括英伟达、英特尔、AMD、微软、阿里巴巴、谷歌、浪潮信息等 AI 芯片企业、互联网企业、系统厂商等,为 AI 算力的技术创新营造了开放、活跃的生态。


目前开放计算规范 OAM 已成为全球最多高端 AI 加速芯片遵循的统一设计标准,全球 20 多家芯片企业支持开放加速规范标准,为 AI 芯片企业节省研发时间 6 个月以上,为整体产业研发投入节省数十亿元,极大地降低了 AI 算力产业创新的难度,加速高质量 AI 算力普惠发展。OAM 规范还在持续迭代,未来基于 OAM2.0 规范的 AI 加速卡将支持 8k 张加速卡的卡间互联,突破大模型 Scale up 互联瓶颈。



同时,在人工智能时代,一切计算皆 AI,CPU 也要具有 AI 的能力。但目前 CPU 多元化发展,如何快速完成 CPU 到计算系统的创新,使其能够适用于 AI 推理负载,已经成为缓解当前 AI 算力稀缺、推动人工智能发展的关键环节。为此,会上开放算力模组规范(OCM)正式立项,首批成员包括中国电子技术标准化研究院、百度、浪潮信息、英特尔、AMD、小红书、联想、超聚变等,以 CPU、内存为核心构建最小算力单元,兼容 x86、ARM 等多架构芯片的多代处理器,方便用户根据应用场景灵活、快速组合。


在 Scale out 方面,大模型的发展需要更大规模的集群,浪潮信息开放网络交换机可以实现 16k 个计算节点 10 万+GPU scale out 组网,,满足 GPU 之间的互联通信需求,带宽利用率高达 95%+。


开放的液冷规范和生态,加速基础设施的 Scale


智算时代,数据中心面临算力扩展两个方向的巨大挑战:一是 GPU、CPU 算力提升,单芯片单卡功耗急剧增加,单机柜在供电和制冷上面临着 Scale up 的支撑挑战;同时,大模型 scaling law 驱动 GPU 集群无限膨胀,达到万卡、十万卡级别,在数据中心层级带来了 Scale out 的支撑挑战。


采用开放的标准、开放的生态,来构建数据中心基础设施,才能够匹配智算时代多元、异构算力的扩展和迭代速度,进而支撑上层智能应用的进一步普及。基于开放的标准,浪潮信息推出了标准接口的液冷冷板组件,支撑单机系统内 GPU 和 CPU 核心算力原件 scale up 扩展;推出模块化、标准接口的 120kw 机柜,兼容液冷、风冷场景,以支撑柜内更大的部署需求;并且基于开放标准的预制化集装箱数据中心,大幅压缩建设周期,可扩展可生长来满足 GPU 集群增长需要。



开放 BMC 管理规范,更快、更好地满足数据中心大规模设备管理需求


随着云计算、人工智能的快速发展,数据中心的大规模异构服务器设备面临多种处理器架构、多种 GPU、多种设备协议、不同管理芯片兼容的系统化设计挑战,如何实现多处理器、多 AI 加速芯片等部件在服务器内部系统高效稳定的运行,对服务器管理控制系统 BMC (Baseboard Management Controller)固件的兼容性、精细度、定制化和快速迭代能力提出了更高的要求。



开源开放的 OpenBMC,以创新的分层解耦软件架构,可以兼容越来越多的处理器、AI 加速卡和管理芯片,并提供更加精细化的智能运维和预警功能,为数据中心的异构算力基础设施提供了灵活、开放的运维管理解决方案,也将推动产业形成开放、标准的管理固件生态。


作为开源技术的拥护者与重要贡献者,浪潮信息积极拥抱 OpenBMC。早在 2017 年,浪潮信息与 IBM 合作贡献社区,并陆续完成多款主流服务器产品的 OpenBMC 适配。2023 年,浪潮信息在 OpenBMC 社区开源代码贡献排名中保持全球第 5 位和中国第 1 位,共计贡献代码 86000 余行,参与社区代码审核 1800 余次,广泛覆盖 Redfish、IPMI、PLDM、LED、USB、时间管理、电源管理、固件升级等模块,推动了社区的健康发展。基于 OpenBMC 方案,浪潮信息也构建起更加稳定可靠、更具扩展性且芯片级安全的开放架构通用服务器产品,通过分层解耦、模块化设计的 OpenBMC 方案 InBry,在 BMC 层面实现了软硬件的标准设计,支持服务器产品的快速、稳定迭代,从而更快、更好地满足用户资产信息管理、故障预警、远程管理和批量自动部署等需求。

2024-08-09 15:006821

评论

发布
暂无评论
发现更多内容

RAG一文读懂!概念、场景、优势、对比微调与项目代码示例

百度Geek说

百度AI rag

2024年11款最佳企业文档管理系统大公开!

爱吃小舅的鱼

文档管理 文档管理软件

阿里巴巴中国站获得联系方式 API(1688.item_get_contact)

技术冰糖葫芦

API API 编排 API 测试 pinduoduo API

研发日记|一次 Java 乌龙“内存泄露”排查之旅

AutoMQ

Java 大数据 kafka 云原生 AutoMQ

AutoMQ 携手阿里云共同发布新一代云原生 Kafka,帮助得物有效压缩 85% Kafka 云支出!

AutoMQ

Java 云计算 大数据 kafka

为什么Python语言那么受欢迎呢?

小齐写代码

京东广告算法架构体系建设--高性能计算方案最佳实践

京东科技开发者

全新特征平台 FeatInsight 测试平台上线,现已开放抢先体验!

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

【论文速读】| MOCK:上下文依赖引导的内核模糊测试

云起无垠

替代 VMware ,为什么需要重新考虑您的存储?

XSKY星辰天合

后端搞 Cocos 小游戏开发的三点避坑指北

北桥苏

游戏开发 Cocos 小游戏 CocosCreator

IntelliJ IDEA 2023 for Mac v2023.3.5中文激活版

iMac小白

平台工程:构建企业数字化转型的基石

行云创新

DevOps 云原生 IdP 平台工程

亚洲唯一!京东荣获2024年度Gartner供应链技术创新奖背后的创新探索

京东科技开发者

新质生产力发展正当时,华为云开年采购季助中小企业“弯道超车”

YG科技

招聘严峻期我最终拿到5个offer的一些经验分享(附面试题)

测吧(北京)科技有限公司

测试

设计原则 — LOD 最小知识原则

Lemoon Can

设计原则 LOD 迪米特法则 最小知识原则

从自媒体小白到优质KOL,你只差这些个人IP提效神器了!

飞桨PaddlePaddle

百度 BAIDU 自媒体 百度飞桨 飞桨星河社区

Take the WiFi card of QCN9274,QCN9074cpu as an example, how to make full use of it?

wifi6-yiyi

Linux cpu wifi

从基础到代码实战,带你进阶正则表达式的全方位应用

华为云开发者联盟

开发 华为云 华为云开发者联盟

观测云产品更新 | 监控器新增组合检测、新增跨工作空间 ServiceMap 等

观测云

APM 监控

AutoMQ 社区双周精选第八期(2024.02.26~2024.03.08)

AutoMQ

Java 云计算 大数据 kafka AutoMQ

手把手的使用Toolkit插件在诗情画意中完成AI诗朗诵

华为云开发者联盟

云原生 开发 华为云 华为云开发者联盟 开发插件

产品经理能否带中国AI突破重围?

自象限

AI 大模型

最佳实践!云起无垠助力科学技术部信息中心信息系统安全检测分析

云起无垠

2024年,数字化转型还能怎么转?

天津汇柏科技有限公司

数字化转型 软件开发、 软件定制开发

大模型基础应用框架(ReACT\SFT\RAG)技术创新及零售业务落地应用

京东科技开发者

日活3kw下,如何应对实际业务场景中SQL过慢的优化挑战?

派大星

SQL优化 Java 面试题 互联网大厂面试

2024开放计算中国峰会浪潮信息赵帅:开放计算推动AI产业创新发展_AI 工程化_InfoQ精选文章