HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

详解英伟达 Spectrum-4 平台,如何构成 Omniverse 数字孪生的骨干网络?

  • 2022-07-18
  • 本文字数:4366 字

    阅读完需:约 14 分钟

详解英伟达 Spectrum-4 平台,如何构成Omniverse数字孪生的骨干网络?

在 GTC 2022 春季大会上,NVIDIA 发布了新一代以太网交换机 NVIDIA Spectrum-4 产品。近日,英伟达网络技术专家崔岩向 InfoQ 等媒体详细介绍了 Spectrum-4 以太网网络平台是如何构成 Omniverse 数字孪生骨干网络的。

什么是数字孪生


真正的数字孪生实际上是一个实物世界的现实翻版。从更大规模的角度看,数字孪生是一个和物理世界相连接的虚拟世界。


真正的数字孪生必须满足四大特征:


  • 物理上的准确性和真实性,必须遵循物理定律;

  • 不间断地与物理世界进行同步,基本上实现“即见即所得”的同步体验;

  • 精准的时间运行,因为在多个计算节点上实现同步;

  • 包括多个自制系统来支撑数字孪生技术。Omniverse 数字孪生是对工业资产、流程或环境的大规模精确模拟,具有多个与现实世界数据流完美同步的自治系统。因此,Omniverse 相当于是一个大融合,可以支持多个同步自治系统,在上述四个特征下实现更好的数字孪生环境。

OVX 服务器支撑 Omniverse 数字孪生平台


英伟达在今年的 GTC 春季大会上,对外发布了 OVX 服务器,可以更好地保持物理上的准确性,遵循物理定律,让数据中心具备可扩展性、低延时和精准时间的特点,来满足上述提到的四大特征,支撑 Omniverse 数字孪生平台,更好地为企业提供数字孪生的基础设施。


NVIDIA OVX 是为了支持数字中心规模、物理精确的工业数字孪生模拟而设计,它结合了最快的光线追踪技术和相关网络组件。第一代 OVX 服务器包括 8 颗 NVIDIA A40 RTX GPU 和 3 块 ConnectX-6 Dx 200Gbps 网卡组成一台 OVX 服务器,还包括两个至强 CPU、1TB 系统内存和 16T NVMe 存储,这使得 NVIDIA OVX 的 SuperPOD 能够在工厂、城市、世界范围构建实时性能的数字孪生系统。


为了能够更好地支撑数据中心规模的应用,NVIDIA 提供了 OVX POD 和 OVX SuperPOD,NVIDIA OVX 不仅仅是一台服务器,它旨在扩展以支持更为苛刻的数字孪生工作负载,为这些工作负载提供最优支持。所以,OVX SuperPOD 和 OVX  POD 多服务器计算系统上,引入了 NVIDIA Spectrum-3 交换机。它提供 200Gbps 网络架构,可以将 32 台 OVX 服务器与高速网络和高速存储进行连接,具备低延时和精准定时的特点,以同步物理世界和虚拟世界,满足大规模行业数字孪生的实时仿真需求。NVIDIA OVX  SuperPOD 架构支持部署 1 个或多个 OVX 的可扩展单元,为复杂的数字孪生提供低延续网络、高带宽和计算性能。

Spectrum-4 以太网交换机平台如何承接数字孪生的骨干网络?


Spectrum-4 400Gbps 交换机,除了提供更高的吞吐量、更好的服务质量、更高的安全性、更低的功耗和成本外,还能实现纳秒级的计时精度,可在 OVX  Super POD 或多个 SuperPOD 组成的数字孪生计算系统架构上提供更精准的、实时性更高的数字孪生基础设施。


Spectrum-4 网络平台将在云和边缘数据中心更全面、更好地支持 Omniverse 数字孪生平台,成为 Omniverse 计算系统的骨干网络。


下面聚焦介绍下 Spectrum-4 以太网网络平台,以及它是怎样承接数字孪生的骨干网络的。

首款 400Gbps 端到端以太网平台


Spectrum-4 网络平台是 NVIDIA 推出的首款 400Gbps 端到端以太网网络平台,它由四大部分组成,一个是 Spectrum-4 交换机,可以加速的云网络架构;二是 ConnectX-7 智能网卡,它是一个领先的智能网卡;三是 BlueField-3 DPU,可以编程的数据中心基础设施。在这三大硬件组件基础上还有 NVIDIA  Cumulus  Linux 或 SONiC 网络操作系统、DOCA 软件框架,这些硬件和软件共同组成了 Spectrum-4 端到端 400Gbps 以太网网络平台。


为什么它如此重要?现阶段,数据中心数据流量呈现指数级增长,并要求极致的性能、高级的安全性和强大的功能,以实现大规模的高性能、虚拟化和虚拟仿真。这对数据中心基础设施提出了非常高的要求。


Spectrum-4 以太网网络平台具有重要价值。它可以将 NVIDIA 推出的 OVX、EGX、HGX 这些计算系统与加速的以太网解决方案连接起来,提供现代数据中心工作负载所需的精确定时、强大的安全性、最低延迟、自适应路由和复杂的拥塞控制机制。DOCA 数据中心基础设施软件框架可以加速基于 NVIDIA BlueField DPU 的应用程序开发,增强大规模云原生应用程序。

硬件参数


Spectrum-4 以太网交换机,可为大规模云计算、企业人工智能、模拟仿真提供性能更优化的端到端以太网网络平台,提供极致的性能,高级的安全性、强大的功能,实现大规模、高性能、虚拟化、模拟仿真功能,使现代数据中心具备更完美的能力来支持 NVIDIA 应用框架。


Spectrum-4 网络平台,实际上是一个完整的体系,以 Spectrum-4 以太网交换机为核心,通过 ConnectX-7 智能网卡和 NVIDIA BlueField DPU,与 NVIDIA  DGX、EGX、HGX 和 OVX 服务器构成一个加速计算系统,提供网络和基础设施上的支持。


在 Spectrum-4 交换机上有一个强大的交换芯片,这是 NVIDIA 自研的 Spectrum ASIC,它可以提供强大的高性能交换能力。NVIDIA  CUMULUS 网络操作系统或 SONIC 网络操作系统来进行交换机的管理和配置,提供更好的开放平台。上面还会提供 NVIDIA NetQ 和 NVIDIA AIR 网络管理工具以及一些运维部署的工具,方便用户在上面构建自己的网络平台。


综上所述,Spectrum-4 平台主要提供四大功能。


  • 加速,一流的硬件性能和云规模的软件效率,能够给用户提供很好的加速网络平台;

  • 创新,第五代交换芯片设计优化云、人工智能、存储工作负载的功能,加速网络的性能;

  • 优化,从成本和投资回报等方面考虑给用户优化的方案,使之花相对少的钱得到更好的网络环境;

  • 可靠,实现公平性、可预测性和可见性的功能,让用户更好的运维网络。与上一代 Spectrum 交换机产品相比,Spectrum-4 平台的网络带宽提升了 4 倍,安全加密性能提升了 3 倍,为大规模数据中心基础设施提供了超高网络性能和强大安全性。在交换机采用的数量方面,一台 Spectrum-4 交换机由于端口密度较高,可提供的端口数量较多,可以替代相当 12 台的上一代交换机组成的网络,再加上它自身的 ASIC 芯片制程,在能源消耗上可以减少 40%。

软件参数


Spectrum-4 交换机支持用户通过开放的 SDK API,基于可编程 ASIC 快速构建的开源网络应用程序和协议。这是一个开放的平台,这与以往传统的网络平台不一样,传统网络架构需要专用的硬件设备,需要购买 License 才能开启特定功能,用户在选择产品时要选择特定供应商,缺乏开放性。


NVIDIA NetQ 平台可以采集整个网络运行情况,进行相应的验证、故障排除、遥测、网络分析、变更配置等操作,方便快速部署。


此外,NVIDIA Air 相当于一个网络数字孪生,可以在没有设备、没有搭建具体网络的情况下,通过 NVIDIA Air 辅助网络管理员构建一个孪生网络,简化整个网络部署。因此,如果在孪生网络里,虚拟环境下已经把数百台交换机、服务器、拓扑做了模拟配置,生效了一些更新的配置,都可以通过孪生网络做验证,验证没问题后再从孪生网络应用到物理网络和生产网络,这样可以大大减少部署中发生网络故障和网络的风险,更好地运维整个网络,为交换机部署节省 95%的时间。

三个最重要的交换机特性

自适应路由


传统的以太网采用静态哈希的方式,由静态哈希算法来决定某一个数据流通过上连链路的哪一条链路来做转发。很多数据都要通过这条链路来转发,当流量变大时,会出现堵塞的状况。


此外,虽然有的链路可能处于空闲状态,但由于算法原因,这些空闲链路无法转发特定数据流,只能等待原来选定的上连链路进行转发,这时会出现相应的拥塞问题。排在数据流尾部的数据包,延迟就会被大大被拉长。英伟达的比较实验室显示:如果不拥塞的情况是 1,在发生拥塞的情况下,最长会增加 2.5 倍等待延时,这会导致整个网络性能急剧下降。


而采用自适应路由之后,就会根据链路拥塞的情况做上传链路端口的选择,这样可以很好地利用上连链路的转发资源,减少链路上的拥塞问题。


BlueField DPU 和 ConnectX-4 智能网卡上还会做一些无序处理包的排序工作,从网卡的角度可以把无序数据包排序传给主机应用,大大改善延时,发生拥塞时会把数据流分配到其他的空闲链路上,这样可以更好地支持 RoCE 和存储上的一些加速功能,实现更高效率的网络架构,这是 Spectrum 目前重要的创新功能。


使用了自适应路由后,可以使整体网络性能提升 15%,这对于超级计算或者实时计算要求比较高的用户而言,是很大的性能上的提升。

高效网络大规模加速 Omniverse


支持 Omniverse 数据孪生,从应用数量、管理上都有很大提升。


如下图所示,左边是传统的叶脊结构数据中心架构,分为两个层次,一类是机柜置顶交换机,另一类是核心交换机,连成两层数据中心网络,自适应路由就应用在这种环境下。由于 Spectrum-4 是一个高密度端口的交换机,而且它的性能强悍,所以,它对于传统的叶脊架构的网络有替代作用,用 1 台 Spectrum-4 相当于 12 台上一代交换机组成的网络。



这样的部署架构,对网络运维人员来说,从整个机柜空间到管理节点数都有了大幅度的改善,还会带来 10 倍的节能。此外,变成 1 台交换机后,所有的交换性能都在 ASIC 芯片里做数据交换处理,来支持更大、更多数量的服务器,在延时性能上有了更大提升。

Spectrum 一流的加密功能


现在很多企业在数据中心部署时都愿意用多数据中心,或者数据中心跟云架构配合的混合云的应用体系,或者企业自己的数据中心存在异地的情况。这些方式都是希望数据中心通过公共基础设施做数据上的传输,但这些又都是敏感机密数据,不能泄露给公共基础设施,所以它需要在数据中心的两端做数据的加密。


在 Spectrum-4 交换机中,可以实现 VXLANSec,它是基于 MACsec 的加密技术,让两个数据中心之间可以通过公共基础设施,通过 Internet 和城域网做连接,但在公共基础设施传输上采用加密技术,让数据传输处在安全保护的状态下。在相应的一些混合云的应用,即数据中心到边缘的应用上,都可以采用这个技术,而且加密流量传输的速度会有 3 倍的提升。对于异地多中心,或者混合云,或者数据中心到边缘计算有部署的企业,可以采用这种加密模式来降低专线成本。采用公共基础设施相应的费用比自己构建专网或者用光纤构建链路的费用节省很多,这是一个可以帮助企业节省投资的方案。


Spectrum-4 的另外两个重要组件,一是 ConnectX-7 智能网卡,它是从 10Gbps 到 400Gbps 多种速率的以太网网卡,可以为云、电信应用、人工智能、企业工作负载提供数据中心规模的硬件加速网络、存储、安全和管理服务,ConnectX-7 上具有加速软件定义网络的数据包处理的技术,也就是 ASAP2 的相关技术,可以在不消耗主机 CPU 的条件下提供线速性能,提供用于 TLS、IPsec 和 MACsec 在线加密/解密功能来硬件加速安全。同时,可以通过高级 RoCE 和 GPUDirect 存储实现高性能存储和数据访问来加速 NVMe-oF,并为未来数据中心应用程序和时间敏感型基础设施提供极其准确的时间同步,为敏捷、高性能的网络解决方案提供助力。


另一个重要组件是 NVIDIA BlueField-3 DPU,它是第三代片上数据中心基础设施,可以支持用户从云端到核心数据中心,再到边缘构建软件定义、硬件加速的 IT 基础设施。新款 DPU 从应用程序负载中卸载、加速和隔离软件定义的网络、存储、安全和管理功能,从而显著提高数据中心的性能、效率、可扩展性和安全性。

2022-07-18 18:435011
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 532.8 次阅读, 收获喜欢 1976 次。

关注

评论

发布
暂无评论
发现更多内容

带你学习MindSpore中算子使用方法

华为云开发者联盟

模型 mindspore 算子

HashSet源码分析-基础结构

zarmnosaj

5月月更

【智人智语】史赛克全球数字化、机器人及赋能技术总裁柯若博:世界智能大会是一个非常重要的盛会

InfoQ 天津

怎么用netty开发一个同时提供http和websocket的服务?

风斩断晚霞

Java spring Netty springboot websocket

AI简报-增强版GAN图像超分:ESRGAN

AIWeker

人工智能 深度学习 5月月更 AI简报

如何实现24/7客户服务自动化?建设智能客服知识库

小炮

打造会“找”主人的麦克风,腾讯个性化语音增强技术荣获2022数博会领先科技成果奖

科技热闻

免费领 CRMEB 移动社交电商系统源码与授权

CRMEB

面向服务的架构

力软低代码开发平台

【云堡垒机】云堡垒机很贵吗?怎么收费?

行云管家

网络安全 数据安全 堡垒机 云堡垒机

【技术干货】代码示例:使用 Apache Flink 连接 TDengine

TDengine

数据库 tdengine

揭秘亚马逊云科技软件开发工程师团队

亚马逊云科技 (Amazon Web Services)

软件开发 工程师

技术分享 | Javaer 如何做单元测试?

LigaAI

Java 单元测试 LigaAI

图解|高性能服务器设计之缓存系统一致性

C++后台开发

redis 后端开发 Linux服务器开发 高性能服务器 系统缓存

加码布局版式文档垂直赛道,福昕船舶图纸管理系统重磅发布

联营汇聚

虚拟化解决方案 virtio 的技术趋势与 DPU 实践解读 | 龙蜥技术

OpenAnolis小助手

虚拟化 技术分享 DPU 龙蜥大讲堂 云豹智能

谁需要实验室内部管理系统?

低代码小观

实验室管理系统 数据管理系统 LIMS实验室信息管理系统 企业管理工具 检查系统服务

Hadoop3.0时代,怎么能不懂EC纠删码技术?

个推

大数据 hadoop hadoop3 大数据 开源

从Oracle日志解析学习数据库内核原理

沃趣科技

oracle 数据库内核

MASA Auth - SSO与Identity设计

MASA技术团队

C# .net 设计 构架 Auth

ETH合并在即,这次升级将带来哪些机遇?

区块链前沿News

以太坊 eth Hoo

【LeetCode】单词距离Java题解

Albert

LeetCode 5月月更

密码学系列之:ASN.1接口描述语言详解

程序那些事

密码学 程序那些事 5月月更 ASN.1

大数据ETL自动化调度运维专家-TASKCTL

敏捷调度TASKCTL

Docker 大数据 程序员 DevOps 数据仓库

周六晚8点,如何基于 eBPF 技术构建应用可观测平台?

OpenAnolis小助手

Linux 直播 内核 龙蜥社区 sig

低碳数据中心建设思路及未来趋势

H3C-Navigator

【等保】等保测评中双因素认证是什么意思?等于双因子认证吗?

行云管家

网络安全 等保 双因子认证 等级保护

一键式打造DAO,M-DAO或成Web3新宠儿

西柚子

元宇宙用户已准备就绪,但技术瓶颈仍制约其真正“落地”

CECBC

元宇宙的十大经济规则

CECBC

浪潮云应用质效管理系统(AOM)荣获2022数博会领先科技成果“优秀项目”奖

云计算

详解英伟达 Spectrum-4 平台,如何构成Omniverse数字孪生的骨干网络?_架构_刘燕_InfoQ精选文章