在 GTC 2022 春季大会上,NVIDIA 发布了新一代以太网交换机 NVIDIA Spectrum-4 产品。近日,英伟达网络技术专家崔岩向 InfoQ 等媒体详细介绍了 Spectrum-4 以太网网络平台是如何构成 Omniverse 数字孪生骨干网络的。
什么是数字孪生
真正的数字孪生实际上是一个实物世界的现实翻版。从更大规模的角度看,数字孪生是一个和物理世界相连接的虚拟世界。
真正的数字孪生必须满足四大特征:
物理上的准确性和真实性,必须遵循物理定律;
不间断地与物理世界进行同步,基本上实现“即见即所得”的同步体验;
精准的时间运行,因为在多个计算节点上实现同步;
包括多个自制系统来支撑数字孪生技术。Omniverse 数字孪生是对工业资产、流程或环境的大规模精确模拟,具有多个与现实世界数据流完美同步的自治系统。因此,Omniverse 相当于是一个大融合,可以支持多个同步自治系统,在上述四个特征下实现更好的数字孪生环境。
OVX 服务器支撑 Omniverse 数字孪生平台
英伟达在今年的 GTC 春季大会上,对外发布了 OVX 服务器,可以更好地保持物理上的准确性,遵循物理定律,让数据中心具备可扩展性、低延时和精准时间的特点,来满足上述提到的四大特征,支撑 Omniverse 数字孪生平台,更好地为企业提供数字孪生的基础设施。
NVIDIA OVX 是为了支持数字中心规模、物理精确的工业数字孪生模拟而设计,它结合了最快的光线追踪技术和相关网络组件。第一代 OVX 服务器包括 8 颗 NVIDIA A40 RTX GPU 和 3 块 ConnectX-6 Dx 200Gbps 网卡组成一台 OVX 服务器,还包括两个至强 CPU、1TB 系统内存和 16T NVMe 存储,这使得 NVIDIA OVX 的 SuperPOD 能够在工厂、城市、世界范围构建实时性能的数字孪生系统。
为了能够更好地支撑数据中心规模的应用,NVIDIA 提供了 OVX POD 和 OVX SuperPOD,NVIDIA OVX 不仅仅是一台服务器,它旨在扩展以支持更为苛刻的数字孪生工作负载,为这些工作负载提供最优支持。所以,OVX SuperPOD 和 OVX POD 多服务器计算系统上,引入了 NVIDIA Spectrum-3 交换机。它提供 200Gbps 网络架构,可以将 32 台 OVX 服务器与高速网络和高速存储进行连接,具备低延时和精准定时的特点,以同步物理世界和虚拟世界,满足大规模行业数字孪生的实时仿真需求。NVIDIA OVX SuperPOD 架构支持部署 1 个或多个 OVX 的可扩展单元,为复杂的数字孪生提供低延续网络、高带宽和计算性能。
Spectrum-4 以太网交换机平台如何承接数字孪生的骨干网络?
Spectrum-4 400Gbps 交换机,除了提供更高的吞吐量、更好的服务质量、更高的安全性、更低的功耗和成本外,还能实现纳秒级的计时精度,可在 OVX Super POD 或多个 SuperPOD 组成的数字孪生计算系统架构上提供更精准的、实时性更高的数字孪生基础设施。
Spectrum-4 网络平台将在云和边缘数据中心更全面、更好地支持 Omniverse 数字孪生平台,成为 Omniverse 计算系统的骨干网络。
下面聚焦介绍下 Spectrum-4 以太网网络平台,以及它是怎样承接数字孪生的骨干网络的。
首款 400Gbps 端到端以太网平台
Spectrum-4 网络平台是 NVIDIA 推出的首款 400Gbps 端到端以太网网络平台,它由四大部分组成,一个是 Spectrum-4 交换机,可以加速的云网络架构;二是 ConnectX-7 智能网卡,它是一个领先的智能网卡;三是 BlueField-3 DPU,可以编程的数据中心基础设施。在这三大硬件组件基础上还有 NVIDIA Cumulus Linux 或 SONiC 网络操作系统、DOCA 软件框架,这些硬件和软件共同组成了 Spectrum-4 端到端 400Gbps 以太网网络平台。
为什么它如此重要?现阶段,数据中心数据流量呈现指数级增长,并要求极致的性能、高级的安全性和强大的功能,以实现大规模的高性能、虚拟化和虚拟仿真。这对数据中心基础设施提出了非常高的要求。
Spectrum-4 以太网网络平台具有重要价值。它可以将 NVIDIA 推出的 OVX、EGX、HGX 这些计算系统与加速的以太网解决方案连接起来,提供现代数据中心工作负载所需的精确定时、强大的安全性、最低延迟、自适应路由和复杂的拥塞控制机制。DOCA 数据中心基础设施软件框架可以加速基于 NVIDIA BlueField DPU 的应用程序开发,增强大规模云原生应用程序。
硬件参数
Spectrum-4 以太网交换机,可为大规模云计算、企业人工智能、模拟仿真提供性能更优化的端到端以太网网络平台,提供极致的性能,高级的安全性、强大的功能,实现大规模、高性能、虚拟化、模拟仿真功能,使现代数据中心具备更完美的能力来支持 NVIDIA 应用框架。
Spectrum-4 网络平台,实际上是一个完整的体系,以 Spectrum-4 以太网交换机为核心,通过 ConnectX-7 智能网卡和 NVIDIA BlueField DPU,与 NVIDIA DGX、EGX、HGX 和 OVX 服务器构成一个加速计算系统,提供网络和基础设施上的支持。
在 Spectrum-4 交换机上有一个强大的交换芯片,这是 NVIDIA 自研的 Spectrum ASIC,它可以提供强大的高性能交换能力。NVIDIA CUMULUS 网络操作系统或 SONIC 网络操作系统来进行交换机的管理和配置,提供更好的开放平台。上面还会提供 NVIDIA NetQ 和 NVIDIA AIR 网络管理工具以及一些运维部署的工具,方便用户在上面构建自己的网络平台。
综上所述,Spectrum-4 平台主要提供四大功能。
加速,一流的硬件性能和云规模的软件效率,能够给用户提供很好的加速网络平台;
创新,第五代交换芯片设计优化云、人工智能、存储工作负载的功能,加速网络的性能;
优化,从成本和投资回报等方面考虑给用户优化的方案,使之花相对少的钱得到更好的网络环境;
可靠,实现公平性、可预测性和可见性的功能,让用户更好的运维网络。与上一代 Spectrum 交换机产品相比,Spectrum-4 平台的网络带宽提升了 4 倍,安全加密性能提升了 3 倍,为大规模数据中心基础设施提供了超高网络性能和强大安全性。在交换机采用的数量方面,一台 Spectrum-4 交换机由于端口密度较高,可提供的端口数量较多,可以替代相当 12 台的上一代交换机组成的网络,再加上它自身的 ASIC 芯片制程,在能源消耗上可以减少 40%。
软件参数
Spectrum-4 交换机支持用户通过开放的 SDK API,基于可编程 ASIC 快速构建的开源网络应用程序和协议。这是一个开放的平台,这与以往传统的网络平台不一样,传统网络架构需要专用的硬件设备,需要购买 License 才能开启特定功能,用户在选择产品时要选择特定供应商,缺乏开放性。
NVIDIA NetQ 平台可以采集整个网络运行情况,进行相应的验证、故障排除、遥测、网络分析、变更配置等操作,方便快速部署。
此外,NVIDIA Air 相当于一个网络数字孪生,可以在没有设备、没有搭建具体网络的情况下,通过 NVIDIA Air 辅助网络管理员构建一个孪生网络,简化整个网络部署。因此,如果在孪生网络里,虚拟环境下已经把数百台交换机、服务器、拓扑做了模拟配置,生效了一些更新的配置,都可以通过孪生网络做验证,验证没问题后再从孪生网络应用到物理网络和生产网络,这样可以大大减少部署中发生网络故障和网络的风险,更好地运维整个网络,为交换机部署节省 95%的时间。
三个最重要的交换机特性
自适应路由
传统的以太网采用静态哈希的方式,由静态哈希算法来决定某一个数据流通过上连链路的哪一条链路来做转发。很多数据都要通过这条链路来转发,当流量变大时,会出现堵塞的状况。
此外,虽然有的链路可能处于空闲状态,但由于算法原因,这些空闲链路无法转发特定数据流,只能等待原来选定的上连链路进行转发,这时会出现相应的拥塞问题。排在数据流尾部的数据包,延迟就会被大大被拉长。英伟达的比较实验室显示:如果不拥塞的情况是 1,在发生拥塞的情况下,最长会增加 2.5 倍等待延时,这会导致整个网络性能急剧下降。
而采用自适应路由之后,就会根据链路拥塞的情况做上传链路端口的选择,这样可以很好地利用上连链路的转发资源,减少链路上的拥塞问题。
BlueField DPU 和 ConnectX-4 智能网卡上还会做一些无序处理包的排序工作,从网卡的角度可以把无序数据包排序传给主机应用,大大改善延时,发生拥塞时会把数据流分配到其他的空闲链路上,这样可以更好地支持 RoCE 和存储上的一些加速功能,实现更高效率的网络架构,这是 Spectrum 目前重要的创新功能。
使用了自适应路由后,可以使整体网络性能提升 15%,这对于超级计算或者实时计算要求比较高的用户而言,是很大的性能上的提升。
高效网络大规模加速 Omniverse
支持 Omniverse 数据孪生,从应用数量、管理上都有很大提升。
如下图所示,左边是传统的叶脊结构数据中心架构,分为两个层次,一类是机柜置顶交换机,另一类是核心交换机,连成两层数据中心网络,自适应路由就应用在这种环境下。由于 Spectrum-4 是一个高密度端口的交换机,而且它的性能强悍,所以,它对于传统的叶脊架构的网络有替代作用,用 1 台 Spectrum-4 相当于 12 台上一代交换机组成的网络。
这样的部署架构,对网络运维人员来说,从整个机柜空间到管理节点数都有了大幅度的改善,还会带来 10 倍的节能。此外,变成 1 台交换机后,所有的交换性能都在 ASIC 芯片里做数据交换处理,来支持更大、更多数量的服务器,在延时性能上有了更大提升。
Spectrum 一流的加密功能
现在很多企业在数据中心部署时都愿意用多数据中心,或者数据中心跟云架构配合的混合云的应用体系,或者企业自己的数据中心存在异地的情况。这些方式都是希望数据中心通过公共基础设施做数据上的传输,但这些又都是敏感机密数据,不能泄露给公共基础设施,所以它需要在数据中心的两端做数据的加密。
在 Spectrum-4 交换机中,可以实现 VXLANSec,它是基于 MACsec 的加密技术,让两个数据中心之间可以通过公共基础设施,通过 Internet 和城域网做连接,但在公共基础设施传输上采用加密技术,让数据传输处在安全保护的状态下。在相应的一些混合云的应用,即数据中心到边缘的应用上,都可以采用这个技术,而且加密流量传输的速度会有 3 倍的提升。对于异地多中心,或者混合云,或者数据中心到边缘计算有部署的企业,可以采用这种加密模式来降低专线成本。采用公共基础设施相应的费用比自己构建专网或者用光纤构建链路的费用节省很多,这是一个可以帮助企业节省投资的方案。
Spectrum-4 的另外两个重要组件,一是 ConnectX-7 智能网卡,它是从 10Gbps 到 400Gbps 多种速率的以太网网卡,可以为云、电信应用、人工智能、企业工作负载提供数据中心规模的硬件加速网络、存储、安全和管理服务,ConnectX-7 上具有加速软件定义网络的数据包处理的技术,也就是 ASAP2 的相关技术,可以在不消耗主机 CPU 的条件下提供线速性能,提供用于 TLS、IPsec 和 MACsec 在线加密/解密功能来硬件加速安全。同时,可以通过高级 RoCE 和 GPUDirect 存储实现高性能存储和数据访问来加速 NVMe-oF,并为未来数据中心应用程序和时间敏感型基础设施提供极其准确的时间同步,为敏捷、高性能的网络解决方案提供助力。
另一个重要组件是 NVIDIA BlueField-3 DPU,它是第三代片上数据中心基础设施,可以支持用户从云端到核心数据中心,再到边缘构建软件定义、硬件加速的 IT 基础设施。新款 DPU 从应用程序负载中卸载、加速和隔离软件定义的网络、存储、安全和管理功能,从而显著提高数据中心的性能、效率、可扩展性和安全性。
评论