QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

详解英伟达 Spectrum-4 平台,如何构成 Omniverse 数字孪生的骨干网络?

  • 2022-07-18
  • 本文字数:4366 字

    阅读完需:约 14 分钟

详解英伟达 Spectrum-4 平台,如何构成Omniverse数字孪生的骨干网络?

在 GTC 2022 春季大会上,NVIDIA 发布了新一代以太网交换机 NVIDIA Spectrum-4 产品。近日,英伟达网络技术专家崔岩向 InfoQ 等媒体详细介绍了 Spectrum-4 以太网网络平台是如何构成 Omniverse 数字孪生骨干网络的。

什么是数字孪生


真正的数字孪生实际上是一个实物世界的现实翻版。从更大规模的角度看,数字孪生是一个和物理世界相连接的虚拟世界。


真正的数字孪生必须满足四大特征:


  • 物理上的准确性和真实性,必须遵循物理定律;

  • 不间断地与物理世界进行同步,基本上实现“即见即所得”的同步体验;

  • 精准的时间运行,因为在多个计算节点上实现同步;

  • 包括多个自制系统来支撑数字孪生技术。Omniverse 数字孪生是对工业资产、流程或环境的大规模精确模拟,具有多个与现实世界数据流完美同步的自治系统。因此,Omniverse 相当于是一个大融合,可以支持多个同步自治系统,在上述四个特征下实现更好的数字孪生环境。

OVX 服务器支撑 Omniverse 数字孪生平台


英伟达在今年的 GTC 春季大会上,对外发布了 OVX 服务器,可以更好地保持物理上的准确性,遵循物理定律,让数据中心具备可扩展性、低延时和精准时间的特点,来满足上述提到的四大特征,支撑 Omniverse 数字孪生平台,更好地为企业提供数字孪生的基础设施。


NVIDIA OVX 是为了支持数字中心规模、物理精确的工业数字孪生模拟而设计,它结合了最快的光线追踪技术和相关网络组件。第一代 OVX 服务器包括 8 颗 NVIDIA A40 RTX GPU 和 3 块 ConnectX-6 Dx 200Gbps 网卡组成一台 OVX 服务器,还包括两个至强 CPU、1TB 系统内存和 16T NVMe 存储,这使得 NVIDIA OVX 的 SuperPOD 能够在工厂、城市、世界范围构建实时性能的数字孪生系统。


为了能够更好地支撑数据中心规模的应用,NVIDIA 提供了 OVX POD 和 OVX SuperPOD,NVIDIA OVX 不仅仅是一台服务器,它旨在扩展以支持更为苛刻的数字孪生工作负载,为这些工作负载提供最优支持。所以,OVX SuperPOD 和 OVX  POD 多服务器计算系统上,引入了 NVIDIA Spectrum-3 交换机。它提供 200Gbps 网络架构,可以将 32 台 OVX 服务器与高速网络和高速存储进行连接,具备低延时和精准定时的特点,以同步物理世界和虚拟世界,满足大规模行业数字孪生的实时仿真需求。NVIDIA OVX  SuperPOD 架构支持部署 1 个或多个 OVX 的可扩展单元,为复杂的数字孪生提供低延续网络、高带宽和计算性能。

Spectrum-4 以太网交换机平台如何承接数字孪生的骨干网络?


Spectrum-4 400Gbps 交换机,除了提供更高的吞吐量、更好的服务质量、更高的安全性、更低的功耗和成本外,还能实现纳秒级的计时精度,可在 OVX  Super POD 或多个 SuperPOD 组成的数字孪生计算系统架构上提供更精准的、实时性更高的数字孪生基础设施。


Spectrum-4 网络平台将在云和边缘数据中心更全面、更好地支持 Omniverse 数字孪生平台,成为 Omniverse 计算系统的骨干网络。


下面聚焦介绍下 Spectrum-4 以太网网络平台,以及它是怎样承接数字孪生的骨干网络的。

首款 400Gbps 端到端以太网平台


Spectrum-4 网络平台是 NVIDIA 推出的首款 400Gbps 端到端以太网网络平台,它由四大部分组成,一个是 Spectrum-4 交换机,可以加速的云网络架构;二是 ConnectX-7 智能网卡,它是一个领先的智能网卡;三是 BlueField-3 DPU,可以编程的数据中心基础设施。在这三大硬件组件基础上还有 NVIDIA  Cumulus  Linux 或 SONiC 网络操作系统、DOCA 软件框架,这些硬件和软件共同组成了 Spectrum-4 端到端 400Gbps 以太网网络平台。


为什么它如此重要?现阶段,数据中心数据流量呈现指数级增长,并要求极致的性能、高级的安全性和强大的功能,以实现大规模的高性能、虚拟化和虚拟仿真。这对数据中心基础设施提出了非常高的要求。


Spectrum-4 以太网网络平台具有重要价值。它可以将 NVIDIA 推出的 OVX、EGX、HGX 这些计算系统与加速的以太网解决方案连接起来,提供现代数据中心工作负载所需的精确定时、强大的安全性、最低延迟、自适应路由和复杂的拥塞控制机制。DOCA 数据中心基础设施软件框架可以加速基于 NVIDIA BlueField DPU 的应用程序开发,增强大规模云原生应用程序。

硬件参数


Spectrum-4 以太网交换机,可为大规模云计算、企业人工智能、模拟仿真提供性能更优化的端到端以太网网络平台,提供极致的性能,高级的安全性、强大的功能,实现大规模、高性能、虚拟化、模拟仿真功能,使现代数据中心具备更完美的能力来支持 NVIDIA 应用框架。


Spectrum-4 网络平台,实际上是一个完整的体系,以 Spectrum-4 以太网交换机为核心,通过 ConnectX-7 智能网卡和 NVIDIA BlueField DPU,与 NVIDIA  DGX、EGX、HGX 和 OVX 服务器构成一个加速计算系统,提供网络和基础设施上的支持。


在 Spectrum-4 交换机上有一个强大的交换芯片,这是 NVIDIA 自研的 Spectrum ASIC,它可以提供强大的高性能交换能力。NVIDIA  CUMULUS 网络操作系统或 SONIC 网络操作系统来进行交换机的管理和配置,提供更好的开放平台。上面还会提供 NVIDIA NetQ 和 NVIDIA AIR 网络管理工具以及一些运维部署的工具,方便用户在上面构建自己的网络平台。


综上所述,Spectrum-4 平台主要提供四大功能。


  • 加速,一流的硬件性能和云规模的软件效率,能够给用户提供很好的加速网络平台;

  • 创新,第五代交换芯片设计优化云、人工智能、存储工作负载的功能,加速网络的性能;

  • 优化,从成本和投资回报等方面考虑给用户优化的方案,使之花相对少的钱得到更好的网络环境;

  • 可靠,实现公平性、可预测性和可见性的功能,让用户更好的运维网络。与上一代 Spectrum 交换机产品相比,Spectrum-4 平台的网络带宽提升了 4 倍,安全加密性能提升了 3 倍,为大规模数据中心基础设施提供了超高网络性能和强大安全性。在交换机采用的数量方面,一台 Spectrum-4 交换机由于端口密度较高,可提供的端口数量较多,可以替代相当 12 台的上一代交换机组成的网络,再加上它自身的 ASIC 芯片制程,在能源消耗上可以减少 40%。

软件参数


Spectrum-4 交换机支持用户通过开放的 SDK API,基于可编程 ASIC 快速构建的开源网络应用程序和协议。这是一个开放的平台,这与以往传统的网络平台不一样,传统网络架构需要专用的硬件设备,需要购买 License 才能开启特定功能,用户在选择产品时要选择特定供应商,缺乏开放性。


NVIDIA NetQ 平台可以采集整个网络运行情况,进行相应的验证、故障排除、遥测、网络分析、变更配置等操作,方便快速部署。


此外,NVIDIA Air 相当于一个网络数字孪生,可以在没有设备、没有搭建具体网络的情况下,通过 NVIDIA Air 辅助网络管理员构建一个孪生网络,简化整个网络部署。因此,如果在孪生网络里,虚拟环境下已经把数百台交换机、服务器、拓扑做了模拟配置,生效了一些更新的配置,都可以通过孪生网络做验证,验证没问题后再从孪生网络应用到物理网络和生产网络,这样可以大大减少部署中发生网络故障和网络的风险,更好地运维整个网络,为交换机部署节省 95%的时间。

三个最重要的交换机特性

自适应路由


传统的以太网采用静态哈希的方式,由静态哈希算法来决定某一个数据流通过上连链路的哪一条链路来做转发。很多数据都要通过这条链路来转发,当流量变大时,会出现堵塞的状况。


此外,虽然有的链路可能处于空闲状态,但由于算法原因,这些空闲链路无法转发特定数据流,只能等待原来选定的上连链路进行转发,这时会出现相应的拥塞问题。排在数据流尾部的数据包,延迟就会被大大被拉长。英伟达的比较实验室显示:如果不拥塞的情况是 1,在发生拥塞的情况下,最长会增加 2.5 倍等待延时,这会导致整个网络性能急剧下降。


而采用自适应路由之后,就会根据链路拥塞的情况做上传链路端口的选择,这样可以很好地利用上连链路的转发资源,减少链路上的拥塞问题。


BlueField DPU 和 ConnectX-4 智能网卡上还会做一些无序处理包的排序工作,从网卡的角度可以把无序数据包排序传给主机应用,大大改善延时,发生拥塞时会把数据流分配到其他的空闲链路上,这样可以更好地支持 RoCE 和存储上的一些加速功能,实现更高效率的网络架构,这是 Spectrum 目前重要的创新功能。


使用了自适应路由后,可以使整体网络性能提升 15%,这对于超级计算或者实时计算要求比较高的用户而言,是很大的性能上的提升。

高效网络大规模加速 Omniverse


支持 Omniverse 数据孪生,从应用数量、管理上都有很大提升。


如下图所示,左边是传统的叶脊结构数据中心架构,分为两个层次,一类是机柜置顶交换机,另一类是核心交换机,连成两层数据中心网络,自适应路由就应用在这种环境下。由于 Spectrum-4 是一个高密度端口的交换机,而且它的性能强悍,所以,它对于传统的叶脊架构的网络有替代作用,用 1 台 Spectrum-4 相当于 12 台上一代交换机组成的网络。



这样的部署架构,对网络运维人员来说,从整个机柜空间到管理节点数都有了大幅度的改善,还会带来 10 倍的节能。此外,变成 1 台交换机后,所有的交换性能都在 ASIC 芯片里做数据交换处理,来支持更大、更多数量的服务器,在延时性能上有了更大提升。

Spectrum 一流的加密功能


现在很多企业在数据中心部署时都愿意用多数据中心,或者数据中心跟云架构配合的混合云的应用体系,或者企业自己的数据中心存在异地的情况。这些方式都是希望数据中心通过公共基础设施做数据上的传输,但这些又都是敏感机密数据,不能泄露给公共基础设施,所以它需要在数据中心的两端做数据的加密。


在 Spectrum-4 交换机中,可以实现 VXLANSec,它是基于 MACsec 的加密技术,让两个数据中心之间可以通过公共基础设施,通过 Internet 和城域网做连接,但在公共基础设施传输上采用加密技术,让数据传输处在安全保护的状态下。在相应的一些混合云的应用,即数据中心到边缘的应用上,都可以采用这个技术,而且加密流量传输的速度会有 3 倍的提升。对于异地多中心,或者混合云,或者数据中心到边缘计算有部署的企业,可以采用这种加密模式来降低专线成本。采用公共基础设施相应的费用比自己构建专网或者用光纤构建链路的费用节省很多,这是一个可以帮助企业节省投资的方案。


Spectrum-4 的另外两个重要组件,一是 ConnectX-7 智能网卡,它是从 10Gbps 到 400Gbps 多种速率的以太网网卡,可以为云、电信应用、人工智能、企业工作负载提供数据中心规模的硬件加速网络、存储、安全和管理服务,ConnectX-7 上具有加速软件定义网络的数据包处理的技术,也就是 ASAP2 的相关技术,可以在不消耗主机 CPU 的条件下提供线速性能,提供用于 TLS、IPsec 和 MACsec 在线加密/解密功能来硬件加速安全。同时,可以通过高级 RoCE 和 GPUDirect 存储实现高性能存储和数据访问来加速 NVMe-oF,并为未来数据中心应用程序和时间敏感型基础设施提供极其准确的时间同步,为敏捷、高性能的网络解决方案提供助力。


另一个重要组件是 NVIDIA BlueField-3 DPU,它是第三代片上数据中心基础设施,可以支持用户从云端到核心数据中心,再到边缘构建软件定义、硬件加速的 IT 基础设施。新款 DPU 从应用程序负载中卸载、加速和隔离软件定义的网络、存储、安全和管理功能,从而显著提高数据中心的性能、效率、可扩展性和安全性。

2022-07-18 18:435338
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 554.9 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

Redis的常见问题

赖猫

c++ redis Linux 后端

Go 的 UTF-8 实现

Rayjun

utf-8 Go 语言

Web3.0时代需要什么样的企业级协作工具?

猫Buboo

深入理解Spring框架之AOP子框架

邱学喆

aop 动态代理 cglib ProxyConfig AspectJ

都在看的18WJava核心成长笔记 让我成功收获字节、阿里、腾讯大厂Offer!

学Java关注我

Java 编程 架构 架构师 程序人生】

当时尚撞上区块链,为潮酷创意赋予专属

CECBC

时尚产业

内容平台与热点挖掘思考

程序员架构进阶

28天写作 4月日更 领域思考 内容平台

微信读书又更新,吃灰已久的Pencil又能拿出来遛一遛了。

彭宏豪95

效率工具 读书 阅读 4月日更 微信读书

Redis-Cluster集群

Sakura

4月日更

【网络】【操作系统】详解select、poll、epoll

Linux服务器开发

后端 网络编程 Linux服务器开发 网络io eopll

打通本地部署和公有云,混合云架构让“鱼”和“熊掌”兼得(一)

UCloud技术

混合云

Python OOP-2

若尘

面向对象 oop 面向对象编程 Python编程

ceph-csi源码分析(1)-组件介绍与部署yaml分析

良凯尔

Kubernetes 源码分析 Ceph CSI

封神总结!蚂蚁金服+滴滴+美团+拼多多+腾讯15万字Java面试题

Java架构追梦

Java 阿里巴巴 架构 面试 金三银四

四面拿到京东Java岗 30K offer 全过程分享

Java架构师迁哥

ceph-csi源码分析(2)-组件启动参数分析

良凯尔

Kubernetes 源码分析 Ceph CSI

DAPP系统开发运营版,DAPP系统开发案例源码

系统开发咨询1357O98O718

怎么做到的?3个月入职蚂蚁金服(Java岗)从年薪10W到年薪30W

Java架构师迁哥

流量分析中常见的指标简单总结

五分钟学大数据

4月日更

想拿到10k-40k的offer,这些技能必不可少!作为程序员的你了解吗?

Java架构师迁哥

比微信文件传输助手更好用的传输工具|Telegram

彭宏豪95

微信 效率 文件传输 4月日更 Telegram

ARST-日常打卡3

pjw

iOS 面试策略之语言工具-Swift

iOSer

ios swift 面试

封神总结!12W字“多线程与高并发实战手册”成功助我涨薪19K

比伯

Java 程序员 架构

思维训练

Ryan Zheng

区块链如何推动数字化转型?

CECBC

区块链

介绍一款能取代 Scrapy 的爬虫框架 - feapder

星安果

Python 爬虫 Scrapy feapder

JVM-技术专题-虚拟机知识遗漏盘点

码界西柚

JVM

产品训练营第三周作业

innovator琳

产品

Golang 反射

escray

学习 极客时间 Go 语言 4月日更

高效获取信息的几点经验

彭宏豪95

效率 信息 阅读 4月日更

详解英伟达 Spectrum-4 平台,如何构成Omniverse数字孪生的骨干网络?_架构_刘燕_InfoQ精选文章