写点什么

黄仁勋谈 GPU 大战:每年都有“英伟达杀手”跳出来,但无人成功

  • 2021-11-22
  • 本文字数:8015 字

    阅读完需:约 26 分钟

黄仁勋谈GPU大战:每年都有“英伟达杀手”跳出来,但无人成功

伟大的技术人员总是着眼于未来,在无数工程师的协同努力下把前景转化为现实。也正是这种从愿景到规范、由规范到现实、再由现实到收益的重复循环,推动世界不断进步。


过去十五年来,英伟达就一直身处这种从创造到扩张的良性循环当中。近日,The Next Platform 记者 Timothy Prickett Morgan 专访了英伟达联合创始人兼 CEO 黄仁勋,探讨了数据中心的后续发展,以及 Omniverse 这一融合了模拟、人工智能、增加现实与虚拟现实技术的最新项目将如何改变现实世界的性质与其中的计算方式。


以下是对话全文,由 AI 前线小组编译:

在元宇宙里造第二个地球


记者: 我还是更喜欢真实的现实;对虚拟现实兴趣不大,增强现实也只是稍好一点。但在今年春季的 GTC 大会上,我看到了未来宝马工厂的概念视频,并最终折服于 Omniverse 堆栈的强大潜力。我终于理解了数字孪生的真正含义,破除了我自己乃至整个业界经常出现的错误理解。在我看来,真正的数字孪生是把遥测推广至每个角落,再用计算设备将遥测结果叠加到真实世界之上,进而利用这些信息达成效能。


所以我的第一个问题是:Omniverse 成功的机会有多大?


之前英伟达加速计算总经理 Ian Buck 曾经向我解释过,超级计算机中心的高性能计算(HPC)与超大规模计算机的 AI 及数据分析各自孤立存在,而 Omniverse 最重要的现实意义就是把这些成果统一起来、以单一堆栈的形式推向商业化。我认为其中的设计思路相当深刻。在这些分散孤岛的支持下,您已经建立起年收入高达 100 亿美元的数据中心业务,而且增长态势一直良好。Omniverse 的出现会进一步推动英伟达的数据中心业务吗?


黄仁勋: 是的,你的理解很中肯也很准确。如你所见,我们要做的不是给地球加上一个“叠加层”,而是数百万个叠加层、数百万个孪生宇宙。有些由人工构建,有些由 AI 构建。其中一些 Omniverse 世界会模拟现实情境,也就是数字孪生;也有一些可能会跟客观现实脱离。而且有些持久存在,有些则仅仅短暂维续,类似于超级计算机中的暂存器。


所有这些世界都将由统一的 AI 计算系统驱动和处理,由它帮助我们管理所能感知到的视觉、传感器、物理以及自动化智能等信息。总结来讲,未来的数据中心将类似于孪生宇宙的引擎,所以我们也在着力构建 Omniverse 服务器与 Omniverse 数据中心。


事实上,英伟达希望在 Omniverse 世界中迈出的第一步将是“地球 2 号”(Earth-2)。 这将是一台规模极大的超级计算机,主要用于模拟地球气候变化。有了这样一套能够评估应对策略的测试系统加早期预警系统,我们将为全人类的气候变化预测做出重大贡献。


大家都知道,全球平均气温每上升 1.5 度都会带来惊人的变化。气温波动本身带来的体感影响还在其次,更重要的是近年来的飓风、龙卷风、强风暴乃至洪水——包括作为全球最大淡水生态体系之一的湄公河竟然变成了咸水河——可能都与这种波动有关。所以我们希望能为这颗瞬息万变的蔚蓝星球建立一套模拟引擎。


你应该可以想象一大堆 Omniverse 引擎持续模拟各种宇宙的情景了吧,这也是项目令人兴奋的原因所在。而我们之所以有信心实现这一切,是因为英伟达内部一直在不断推进模拟的边界。我们能够模拟内部芯片架构,也应该可以在未来到来前做出准确预测。


记者: 这样一来,我们就能提前预见未来的状况。


黄仁勋: 没错。所以我们才积极把这些技术引入目前最具挑战的现实问题当中——预测未来、探索边界、理解当前决定对整个地球的影响,而且相应的周期可能长达三十年、四十年甚至七十年。长期以来,气候变化之所以很难在全社会中引起共鸣,就是因为大部分人不关心、也感受不到来自七十年后的压力。


记者: 很高兴能在有生之年看到这一切的推进。两年前新冠疫情还没爆发时,极端气候就已经在全球各地频繁出现,就连我自己的房子都受到影响。今年夏天,我家附近 10 英里范围内甚至出现了龙卷风。


黄仁勋: 已经有一些人开始意识到并接受这样的现实。当然,也有人觉得极端天气总会出现,没什么可大惊小怪的。但无论如何,我们都有必要模拟整个气候系统,让“总会出现”变得“可以解释”。


记者: 但你觉得这真的现实吗?或者说,人们真的会在乎吗?就算是把几十年后的未来摆在大家面前,很多人恐怕也会无动于衷吧?


黄仁勋: 但我仍然希望能带来哪些一点点触动。如果他们能像英伟达一样相信模拟的力量——我们始终坚信这一点,而且在模拟领域的投入远超他人——就应该相信模拟得出的结果能够指导我们采取行动、修复气候问题。


记者: 在三年前的 SC19 大会上,我曾动笔写过一篇题为《模拟出的未来,就是我们相信的未来》的文章,可惜一直没有最终完成。我一直想不到合适的收尾,但现在我好像有点感觉了……


黄仁勋: 明白了,是的,你已经理解了我想表达的东西。


记者: 如果我们相信模拟、同时把这种相信付诸模拟,那么大家肯定就要关心这些信息到底是怎么处理的。在这件事上我自己也很纠结,一边我希望外行人能闭嘴、少对自己不懂的东西指手画脚。但必须承认,事情不可能就这么简单粗暴地推进,我们必须找到合适的平衡点。你肯定也很清楚,技术永远是把双刃剑。


黄仁勋: 没错,我认为大多数人——虽然不是所有人——只要能够理解自己行为带来的后果,还是会做出正确选择的。真正的问题其实是那些我们设想不到的问题,例如我们无法对未来人类活动给自然环境造成影响后的真实体验做出预设。


记者: 那么,模拟应该就是个很好的展现方式。


黄仁勋: 这就是“地球 2 号”的最大意义所在。**地球 2 号可以说是数字孪生领域最直观、最有力的功效案例。我们可以将同样的概念引入工厂流水线、也可以引入 Omniverse 虚拟世界中相互对接的自动驾驶车队,还有机器人的数字孪生等等。**想象一下,我们将为工厂设计出纯数字版本的机器人系统,并在实际操作当中不断改进这两个孪生版本。虚拟世界中的优化效果也将照进现实世界,这正是 Omniverse 的意义所在。

数据中心业务如何提速

记者: 下面咱们聊聊英伟达的数据中心业务吧。接下来业务要如何保持稳定的增长速度?或者说还可能迎来进一步提速?


黄仁勋: 肯定还会进一步提速。


我们对数据中心业务的未来愿景是,数据中心应该成为一种负责处理超大规模应用程序的计算引擎,同时结合从物理模拟到人工智能、再到计算机图像的所有内容。


对于这样一套数据中心体系,最擅长设计并构建它的肯定是我们。从这个角度来看,始终在物理、人工智能与计算机图像领域贡献独特力量的 GPU 必然成为 Omniverse 世界的完美引擎,只是这一次的规模将超越以往任何时候。


当下我们面对的问题多种多样,有些可以被拆分成多个较小的部分来逐一攻克,但也有一些无法拆解、否则必然造成不可控制的失真。在这种情况下,我们只能选择将规模可观的负载整个运行在由超级计算机支撑的云原生环境当中。我们正在努力解决一个个影响人类社会未来命运的问题。


目前业界已经有不少支持的声音,认可英伟达将超级计算机转化为云原生系统的思路。另外,Omniverse 终究是要由成百上千万人共享的,所以我们才需要研究 AR 与 VR 技术,它们是出入 Omniverse 的通道。AR 让 AI 技术从 Omniverse 进入我们的现实世界,而 VR 则是把我们吸入 Omniverse 的“虫洞”。


记者: 有意思,这样整个生态就形成了闭环。或者说,你把世界变成了各式各样的电子游戏。


黄仁勋: 没错,但其中也有一些重要区别……


记者: 但有一说一,好像你自己也没想好具体该怎么表达……


黄仁勋: 是的是的,因为你比较熟悉技术背景,所以我在思考怎么解释更合适。


Omniverse 和电子游戏引擎之间有着根本区别,这种区别在于 Omniverse 中的一切都是实时生成的,而电子游戏里的一切是预设好的。 例如,看看当下的电子游戏,就会发现数据下载量往往高达几百 GB。原因很简单,大部分纹理和照明设计都是预先烘焙好的,所以在呈现前需要进行离线渲染。


没错,目前电子游戏中的几乎所有内容都像电影那样采用离线渲染方式。先是合成动态层,也就是光照层,之后是添加镜面反射、动态照明等等,让整个区域呈现出动态体验。但这只是种感觉,实际上电子游戏中的光照不会随时改变,这也限制了游戏中的实际环境。例如,建筑物在倒塌时整个过程不会立即显示出来,因为这会改变全局照度分量,目前的游戏还无法实时处理这样的运算。


但在 Omniverse 当中,我们会从零开始构建一切,所以没办法预先计算光照。所以 Omniverse 的一切都会实时完成。这堪称一大奇迹,例如扔下一个球,它会落在地上并反弹起来。对于不同材质的球,金属球或者橡胶球,反弹时的性状会由物理引擎来模拟。这些模拟全部实时完成,碰撞检测也是,保证不同物体间不会相互渗透。另外,一切照明同样实时完成。这就是 Omniverse 最令人向往的亮点。


记者: 要实现这样的核心差异,英伟达肯定能卖出很多算力资源吧。


黄仁勋: 最重要的是先创造出这样的未来,之后才是生意、赚钱。我们无法预判人们想买什么、不买什么。


我们坚信,Omniverse 首先能够为之前提到的这些场景建立起模拟数字孪生版本,或者将不同的 3D 世界连接起来。 所以我再举个例子:到那时用户也许会身处 Adobe 的世界,而且各自有自己的数据集与数据结构。Adobe 设计师将由此进入 Adobe 当中。当然,还会有 Dessault Systems 世界和 PTC 世界等等。如同网站与 HTML 连接,只要能通过某种标准将这些事物连接起来,我们就能透过单一门户实现内容共享。


而英伟达的目标就是以 Omniverse 打造这样的门户,同时辅以通用场景描述(简称 USD),帮助每一位用户看到里面的东西、看到我们为这个数字孪生世界做出的贡献。事实上,这个世界的建设需要我们每个人共同努力,相当于是 3D 版本的 Google Docs。


记者: 这就像是《钢铁侠》电影里出现过的情景。


黄仁勋: 没错,有些人适合用 VR,有些人适合用 AR,但同处一个世界。

英伟达不是芯片公司,而是软件公司

记者: 我们再来聊聊产品策略吧。Omniverse Enterprise 的定价为每用户 9000 美元,之前很少看到英伟达会明确对软件收费。英伟达开发过不少软件,不知道你们的内部开发资源有多少关注硬件、又有多少分给软件?


黄仁勋: 公司里有四分之三的员工负责开发软件。


记者: 哇哦,这个比例确实不低,但英伟达的收入分配应该不是直接按比例划分的吧?这种情况让我想到了上世纪六十年代末期的经典 IBM,当时大型机主要靠硬件销售,同时提供配套的软件与服务。但随着推移,摩尔定律推动硬件成本不断下降,IBM 在竞争之下也开始走上硬件价格降低、软件与服务价格/占比上涨的道路,而系统的总体使用成本基本不变。英伟达也会走上同样的道路吗?


黄仁勋: 我一直把英伟达的软件视为有价值、而且对应直接回报的成果。英伟达一直在为软件付费,这种思路跟苹果 iPhone 差不多。虽然用户买的是手机,但其中丰富的软件无疑也是整个系统的重要组成部分。


在软件定价方面,英伟达的唯一问题在于:我们该以怎样的方式与客户交换价值?或者再进一步简化成,我们要如何为客户提供一种最便捷的价值交换方式


回顾过往的产品分销方式,可以看到英伟达之前是需要分销层才能对接最终用户的,这是因为我们的技术被集成到了个人电脑、游戏机或者服务器当中。


对于硬件厂商来说,业务流程就只能截止于硬件的设计、构建和销售。在理想情况下,客户买了硬件之后就再也不跟厂商联系了——优秀的硬件就该有这样的信心。但优秀的软件则有不同的标准,它需要不断升级、即时升级。而我们英伟达敢于做出这样的承诺:只要我们还存在、还运营,我们就会一直保持升级。


很多 GeForce 客户都对我们的服务感到意外,因为我们会年复一年不断升级配套软件。CUDA 客户对于 CUDA 12 的良好口碑,也源自多年前的一次付费所换来的长久服务。我们从未停下过软件堆栈的升级与加速脚步,这令很多用户感到震惊。


可能不少朋友都有这样的感受:在买下一台装有英伟达硬件的计算机后,时隔数年只要下载最新的驱动程序,它就能奇迹般地实现提速。所以,我们提供的价值显然主要体现在软件身上。 买到的硬件只是对应初始性能外加一定的性能上限,但在整个使用周期内用户会逐步获得 3 倍、4 倍甚至是 10 倍的后续性能提升,而且这一切只通过软件更新就能实现。总而言之,软件体现出我们看待这个世界的方式、反映出我们的运营战略,也再次强调 28 年来英伟达始终强调的“我们是一家软件公司” 的基本文化。


这就带来了另一个问题:我们怎么获取回报?我个人认为这是两个毫不相关的问题:怎么赚钱跟使命定位完全不同。在赚钱方面,市场永远是最公平的。


有些朋友可能会问:如果英伟达真的只靠卖显卡,那区区几千美元的芯片回报怎么能支撑起长久延续的软件升级?当然不行,除非建立起真正的规模经济效应。 所以我们选择了走量的业务模式,而非专为一部分高端客户提供定制硬件。基于这种横向思考,我们会慢慢扩大硬件装机量、慢慢开发出顺应市场需求的软件,慢慢建立起堆栈与相应价值,并最终在各个领域中慢慢孕育出生态系统。


大家应该了解,CUDA 中的 UDA(统一设备架构)是在 1995 年发明的,它出现时英伟达的很多现任员工甚至还没上大学。以此为标志,我们确定了建立横向计算模型的运营思路,我们的整个商业模式也围绕着这个原则扩展而来。


记者: 您认为企业应该如何分配硬件和软件支出?毕竟 Omniverse Enterprise 已经确定要收取合约和许可费了。


黄仁勋: 企业客户跟个人客户的需求也有很大差别,这一点非常重要。企业要求我们给出明确的承诺:我们会按照特定的更新节奏不断发布迭代,甚至针对特定问题提供分叉版本或者向下兼容功能;而企业客户信任这些承诺,并以此为基础构建其他软件。所以要维持这样的合作关系,英伟达就必须恪守承诺,甚至以有违内部发展策略的方式规划并维持多代后续架构。


记者: 是的,很多客户最初是打算把某平台用上十年,但最终可能只用了三年、也可能用了二十多年。


黄仁勋: 确实是这样。


记者: 我们不应该束缚人们的思维,但实际运营中的这种坚持并不应该叫束缚,而是对投资和安全的尊重。


黄仁勋: 毕竟企业要付钱,要签订一份非常具体的服务水平协议,并在其中明确表达他们的更新节奏与运营方式。而就算跟原本的工程计划不符,我们英伟达也会按照商定的方式为企业客户提供支持。企业软件就是这样,合作双方必须建立起这种关系。我们还要给客户以信心,让他们知道只要他们打来求助电话,我们就会放下手头所有工作跑去帮忙。他们用英伟达产品可不是为了玩游戏,而是在商业市场上跟竞争对手真刀真枪地比拼。


所以我们就沿着这个思路推进,通过网络不断提供软件更新代码,并保持快速移动、快速创新,在尊重企业客户现有方法和敏感性的前提下建立起完整的系统发展路线。我们的 Nvidia AI Enterprise 堆栈正是这样创立而来,现在我们需要以此为基础保持维护、调度与创新,提供向下兼容保障与必要时的分叉支持——这就是企业软件的运营常态。

每年都有“英伟达杀手”出现


记者: 所以现在企业客户至少能够保证有两年的 GPU、DPU 与 CPU 稳定服务周期。但很明显,AMD 的“Aldebaran”Instinct MI200 系列 GPU 加速器展现了前所未有的市场竞争力。


这里要强调一点,其中确实包含 2 个 GPU,AMD 打算通过单设备上的双 GPU 来“拉升 K80”水准。靠着这样的优势,这款 GPU 已经在无数小型系统以及两套百亿亿级超大规模系统中站稳了脚跟。根据既定节奏,英伟达要到明年才会发布新一代 GPU 公告,但 AMD 来势汹汹似乎不容小觑。另外,英特尔恐怕也会带来一定程度的 GPU 竞争压力,对吗?


黄仁勋: 首先,我们三方其实一直都存在竞争。所以也没必要把 MI200 理解成第一个跳出来的英伟达“杀手”。毕竟每年都会出现所谓的“英伟达杀手”,已经见怪不怪了。


记者:我的意思是,这是英伟达在高端 HPC 与 AI 超级计算领域的首位强劲对手。过去十五年以来,英伟达在超级计算机 GPU 加速领域基本可以说是没有敌手。


黄仁勋:  确实,但造成这种现状的理由也非常简单。 因为 HPC 系统只要求两点——性能和价格。HPC 数据中心需要提前几年签定订购合同,但要怎么确定还不存在的硬件的具体性能?英伟达有靠谱的计算方程,能承诺也能做到,所以就这样了。


记者: 能不能具体说说?


黄仁勋: 我们可以理解成这里有个交易天秤,一端是 FP64 的峰值算力与内存容量,另一端则是美元。就是这么个等式,谁能做优做到,谁就能拿下这部分市场。


记者: 所以 AMD 要想翻盘,就得提升性能、降低价格?但他们目前好像正在这么干……


黄仁勋: 所以问题就变成了我们怎么看待这个世界,为什么会出现如此激烈的竞争。加速计算领域的对抗甚至不能说是激烈,而是惨烈。 我会做出具体解释。


你可以造出世界上最强的芯片,然后把它插进计算机里……但之后呢?要用它加速什么?根本就没有东西,怎么谈加速?


加速计算的困难之处,就在于它对软硬件协同提出了极高要求。另外,摩尔定律的要求太过苛刻,即使是按下限来算也是相当困难。 要想成为一家成功的加速计算厂商,我们需要随着时间推移稳定提供远高于摩尔定律的结果。


记者: 多年之前采访谷歌时,他们就说过每天都得超越摩尔定律才能保持稳定经营……


黄仁勋: 当然,这里面代表着巨大的工作量,不可能单靠编译器就达成目标。整个堆栈都需要重构,所以我们必须先了解应用程序以及其中的算法,之后提出新的库乃至新的系统。完成之后,我们才能完成一次提交。


但这世界上有成千上万的应用,对吧?有些人可能觉得现在有了深度学习,一切都能加速起来了。但实际情况没那么简单,计算机视觉的架构就完全不同。可以说每种架构都独一无二,每种算法都有自己的特性,所以只能从应用本体出发、逐一重构整个堆栈。另外,还得跟开发商合作,说服他们参与到这场应用加速竞赛中来。真的太难了。


所以在很长一段历史时期中,只出现了 CPU 这一种计算架构。直到最近几年,加速计算模式才真正普及开来。这一方面是因为我提到的整体堆栈的重构工作难度极大,另一方面也在于我们很难说服应用程序的拥有者也参与到加速中来。人们更愿意等待摩尔定律从天而降发挥作用,到时候多加几个节点就行了。


要做得更好,必须实现全栈覆盖,必须针对各个领域开发出很多软件。好在经过了近 25 年的努力,我们终于让加速计算架构完成了基本普及,我们也对此感到成分荣幸。尽管如此,我们的竞争对手仍然什么都不做,继续依靠摩尔定律的“魔法”。


我们的数据中心业务总值约 100 亿美元,大概占全球数据中心市场份额的 5%;而另外 95%的数据中心业务仍然围绕 CPU 展开。这就是竞争,残酷的竞争。


但在下一个全新计算世界中,我们需要解决的问题不再是除以 2 或者乘以 2 那么简单。人类有史以来第一次把多种事件中的全部变量集中起来,所以总体计算量可能增加上百万倍。气候科学界也承认,即使是在合理的规模下,解决一个小问题也往往需要上亿甚至十亿次计算。如果将精度再提升 50%,计算量还会爆炸式增长。模拟领域的物理量遵循的就是这种增长曲线,所以接下来需要关注的可以说是亿倍级计算问题。


但也有意外之喜,就是 GPU 的普及推动了深度学习技术的大众化,进而带来基于物理原理的神经网络。你能设想一套遵循物理定律的神经网络吗?它会从原理方程和自然观察中学习物理知识,而且一切预测中的损失函数都受物理定律支配,所以不会出现莫名其妙的假想——比如有违能量守恒定律的结论……


记者: 可能这样的现实已经来到我们的身边……


黄仁勋: 是的,是的,所以才说这是个意外之喜。如果我们能让神经网络遵循物理定律,那么这类模型就会带来令人难以置信的扩展效能。在 GPU 的加持下,这样的神经网络可以持续扩展。事实上,GPU 加速已经让物理性能提升了 20 到 50 倍,所以突然之间神经网络开始能够掌握偏微分方程了。


接下来就是神经网络的规模扩展,目前已经出现了 1 万到 10 万倍区间的扩展案例——我们可以让模型与现实世界中获得的观察数据保持同步。通过并行化调整,神经网络可以被分布在 10000 到 20000 个 GPU 之上,真正实现亿倍甚至十亿倍扩展。


这样的结果,正是英伟达提出的 Omniverse。它的出现,代表着我们正式向世界数字模拟的阵地发起冲锋。 如果能够成功飞跃,人类对计算的理解也将彻底改变。其中最大的意义也在于此——计算机科学改变了算法,而算法如今又反过来改变着计算机科学。


原文链接:


https://www.nextplatform.com/2021/11/16/nvidia-ceo-on-competition-software-and-the-omniverse/

2021-11-22 14:206878
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 532.2 次阅读, 收获喜欢 1976 次。

关注

评论

发布
暂无评论
发现更多内容
黄仁勋谈GPU大战:每年都有“英伟达杀手”跳出来,但无人成功_AI&大模型_Timothy Prickett Morgan_InfoQ精选文章