最近,Meta宣布推出下一代用于人工智能训练的硬件平台Grand Teton,与前代相比有多项优化,包括两倍的网络带宽及四倍的主机到 CPU 带宽升级。
Meta 公司工程副总裁Alex Bjorlin于近期的开放计算项目(OCP)全球峰会的主题演讲中宣布了这一消息。Grand Teton 的开放硬件设计是 Meta 对数据中心人工智能工作负载的最新迭代贡献,与前一代由三个“盒子”组成的 Zion-EX 不同,Grand Teton 的集成机箱让它可以更快、更容易地部署。Meta 还为 Grand Teton 设计了一个新的数据中心机架和冷却系统,用于支撑大型人工智能模型训练所需要的服务集群电力需求。Bjorlin 称:
Meta 是全心全意支持人工智能的,但人工智能的未来不可能完全由我们创造,而是通过合作,通过如 OCP 一样的组织分享想法和技术来创造。我们渴望继续合作,建立新的工具和技术以推进人工智能的未来。希望人们能加入我们的各种努力,无论是现在开发新的人工智能方法,还是从根本上重新思考未来的软硬件设计,我们对这个行业的未来发展非常乐观。
Meta 训练并部署了许多大型人工智能模型,其中不乏包含数万亿参数,需要等量规模数据集训练的模型,这也意味着他们会需要大量与 GPU 互联的服务器。Meta 自 2016 年起便开源了他们的人工智能硬件设计,且推出了Big Sur平台。去年,InfoQ 同步报道了 Meta 的最新迭代Zion-EX平台,该迭代是由数千计算节点组成集群,其中每个节点都含有四个 CPU 插座和八个 GPU。
图源:https://engineering.fb.com/2022/10/18/open-source/ocp-summit-2022-grand-teton/
然而,Zion 平台的每个节点都需要外部布线才能整合三个不同的组件:CPU“头部”、GPU 系统,以及一个交换系统。全新的 Grand Teton 则将这些组件全部整合到一个机箱之中,且该机箱也包括了电源、计算和网络接口,“以实现更好的整体性能、信号完整性和散热性能”。英伟达称,Grand Teton 还拥有英伟达基于Hopper架构的H100 Tensor核心GPU。Meta 还更新了他们的底层存储平台:新版本的Grand Canyon在前代 Bryce Canyon 架构的基础上进行了改进,让 Meta 公司“达到驱动器的极限水平”。
在 Grand Teton 的设计之外,Meta 公司还发布了一款数据中心机架设计:开放式机架v3(ORV3)。与其他将电源架直连母线的机甲不同,ORV3 的电源架可以安装在任何位置,设计更加灵活。改进后的备用电源与前代仅支持 90 秒的供电相比,可提供长达四分钟的供电。ORV3 还支持多个电源架和 48 VDC 的输出,可部署处理高达 30 kW 的机架。Meta 还为这代更高的功率容量设计了新的冷却策略:ORV3 支持空气辅助液冷,设施水冷,以及“可选盲配液体冷却接口设计”。
Meta 公司设计的可互动 3D 模型可在这个官网找到。
原文链接:
Meta Announces Next Generation AI Hardware Platform Grand Teton
活动推荐:
2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。
评论