9月7日-8日,相约 2023 腾讯全球数字生态大会!聚焦产业未来发展新趋势! 了解详情
写点什么

英伟达安培架构来了!7nm 制程,540 亿晶体管,AI 算力提升可达 20 倍

  • 2020-05-15
  • 本文字数:4021 字

    阅读完需:约 13 分钟

英伟达安培架构来了!7nm制程,540亿晶体管,AI算力提升可达20倍

北京时间 2020 年 5 月 14 日,英伟达一年一度的 GTC 大会终于得以在线上开幕。受疫情影响一推再推的这场大会,也终于没有让观众失望,带来了一系列品质爆炸的新品,AI 前线 /InfoQ 对这场发布会进行了全程跟踪报道,以下是详细内容。

引言:一波三折的 GTC 2020GTC 2020

原计划 3 月 22 日到 26 日在美国加州圣何塞举行,然而由于疫情,英伟达不得不考虑在线上举行发布会。彼时,英伟达方面表示,公司创始人兼 CEO 黄仁勋还是会发表主题演讲,并通过线上直播方式来进行交流互动。该会议的线上举办时间依然为 3 月 22 日至 26 日。


InfoQ 在当时也受到了线上大会的邀请。然而就在大会开始前两天,InfoQ 接到消息称:GTC 2020 线上大会暂时取消,新的发布时间暂未确定。


当记者询问原因时,对方表示也只是收到了通知,并没有更多指示。此后很长一段时间,GTC 大会就这样短暂消失在大众视野中。


大约一个多月后,GTC 2020 的邀请再次到来,这场大会也如期而至。有趣的是,此次直播之前,黄仁勋先给各位观众上了一道“硬菜”:


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00

    安培架构终于来了

    “The more you buy,the more money you save!


    还是熟悉的配方,还是熟悉的味道,还是熟悉的皮夹克,黄仁勋来了,不过这次不是在台上,而是在他家的厨房里。


    受疫情影响,此次发布采取了线上直播的形式。说是直播,倒不如说是录播的全放送,在 YouTube 上,英伟达官方帐号一次性放出了所有录播片段,供观众观看。


    YouTube 链接:


    https://www.youtube.com/user/nvidia/videos


    首先说说本次大会的第一个亮点:安培(Ampere)架构


    如果对英伟达的技术和产品有所关注,那你一定听过 Pascal、Volta、Turing 这三种 GPU 微架构的名字,分别发布于 2016 年、2017 年和 2018 年,它们代表着英伟达 GPU 的最高工艺水平,以这些架构为基础的 GPU 芯片为英伟达带来了巨大收入。需要注意的是, Volta 架构当年就是专门为专业用途设计的,游戏卡上则是 Pascal、Turing,这一次的安培架构可能也会类似,下一代游戏卡会有另一个新架构。


    根据早先一些媒体披露的消息,使用安培架构的计算显卡应该会命名为 Tesla A100 。不久之后实锤来了,商标查询网站 Justia 显示,英伟达已经在今年 3 月 30 日悄然注册了“DGX A100”,对应基于安培架构、GA100 核心 Tesla A100 计算卡的新一代深度学习工作站、AI 超级计算机。



    另外,根据本届 GTC 大会前最新了解到的消息,安培架构的 GPU 会采用 7nm 制程。


    随着黄老板的介绍,上述猜测都一一得到证实。


    现代数据中心非常复杂,而英伟达一直希望加快整个数据中心的处理速度。过去几年,业界各大科技公司提供的解决方案已经针对不同任务进行了优化。现如今,云几乎无处不在,大力发展云端数据中心很重要,英伟达希望创造一个加速器,进一步增加大规模应用程序的吞吐量。


    今天,英伟达正式宣布推出 NVIDIA A100,全新的数据中心 GPU,也就是之前网上盛传的,被称之为安培(Ampere)的产品,它包含 540 亿晶体管,拥有比原来强大 20 倍的 AI 算力。



    据黄仁勋介绍,A100 的技术创新体现在以下 5 点:


    1、台积电 7nm 工艺,将内存和芯片放在相同的基材上以便可以互操作,并且已经连接到 HBM2 内存,该内存现在提供 1.5TB 帧缓冲区带宽,这是历史上第一个每秒超过 1TB 的带宽的处理器。


    2、 第三代 Tensor Core AI 核心,支持 TF32 运算,无需任何代码改变就可以让性能提升 20 倍,还支持 FP64 双精度运算,与 HPC 应用相比带来了 2.5 倍的性能提升。


    3、 MIG 新架构:这是一项创新技术,可以将一个 GPU 划分为七个独立的 GPU,针对不同的目标提供运算,最大化提高计算效率。



    4、 NVLink 3.0:新一代 GPU 总线的性能翻倍,可以在服务器应用中提供更有效的性能扩展。


    5、 结构稀疏性:这项新技术利用了 AI 运算中固有的稀疏性,从而实现了性能翻倍。


    这 5 大技术创新使得 A100 加速卡不仅可用于 AI 推理、AI 训练,还可以用于科学仿真、AI 对话、基因组与高性能数据分析、地震建模及财务计算等。黄仁勋表示,这是 NVIDIA 八代 GPU 史上最大的一次性能飞跃。



    与此同时,英伟达还发布了 DGX A100 第三代系统,开箱即用,集成了该系统的计算机是世界上第一台单节点计算超过 5 petaFLOPS 能力的计算机,售价 199000 美元,除了整机也可提供分解组件销售。

    英伟达与 Spark 3.0 合作了

    说过了新品,再来聊聊其他重要发布。


    高性能计算一直都是英伟达关注的领域,因此在本次直播中,黄仁勋宣布了一项重要决定:英伟达与 Spark 3.0 达成合作,将对 Spark 开放 GPU 计算能力



    Spark 由于使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算,因此被用作数据处理的最佳工具之一。但是因为数据复杂度不断上升,现在的企业与机构经常要处理数十甚至数百 TB 的数据,如果能将 GPU 的计算能力赋予 Spark,效率或许能够有更多的提升。


    黄仁勋介绍到,英伟达对 Spark 的赋能主要集中在以下几点:


    英伟达在 2019 年推出了 GPUDirect Storage 和 UCX,同时又有收购的 Mellanox 公司的技术加成,因此英伟达在存储数据传输、IO 存储以及多节点管理的速度都能够做到“快如闪电”;


    其次,使用 GPU 和 GPU 内存,Spark 的调度程序可以将任务进行分区,并以分布式的方式进行安排与管理;


    同时,Rapids 库具有提取数据、创建数据框架、搭建特征工程、执行 SQL 查询和拦截等功能,这些能力可以对 Spark 起到很大帮助。对于 Spark,其 Catalyst 加速器已经得到了优化,能够很好的适应英伟达 GPU。


    那么,英伟达与 Spark 的合作能够带来什么好处呢?黄仁勋举了一个例子:这套存储有着高达 100 万美元的造价,能够提供每秒 17GB 的数据传输速度。



    然而有了 Spark 3.0 和 Rapids 的加成,数据的传输速度提升到每秒 163GB,性能达到了之前的十倍。


    如果是以前,打造一个每秒 163GB 传输速度的存储中心的花费是 1000 万美元,带来的功耗是 140KW,现在只需 200 万美元的造价,56KW 的功耗,是原来成本的五分之一,功耗的三分之一。


    因此,黄老板说出了那句名言:买得越多,省得越多。


    此外,英伟达在今天还发布了一个深度学习推荐应用框架。由于推荐系统属于计算密集型工作,因此如何提升计算速度是非常重要的,也正因如此,英伟达推出了 Merlin 框架:



    为使其易于使用,黄仁勋表示英伟达已经采用了复杂的训练与计算来对它进行优化,因此只需要几行代码,就可以进行数据提取,数以 TB 计算的数据拓展与分区都是自动完成的。

    其他发布产品

    交互式 3D 聊天机器人 Misty:图形都是实时渲染

    在发布会上,英伟达还推出了新的应用程序框架 Jarvis,它需要音频输入,并且可以通过几何网格动画生成说话时的面部动画,准备好之后就可以连接到对话式 AI 模型中,用户询问问题后,它会理解并回答问题,然后根据内容合成语音驱动的 3D 模型,如下是英伟达的第一个交互式 3D 聊天机器人 Misty:



    在聊到具体天气时,Misty 可以根据天气实时变化形态,比如,当天气很冷时,Misty 的状态是这样的:



    Misty 具有互动功能,需要 AI 技术处理自然语言、理解内容并实时渲染图形,是一个端到端的处理过程,并且延迟很短,就好像是面对面互动交流,这就是 NVIDIA Jarvis 的目的,一个多模式对话式 AI 服务框架,可在各种场景中应用,比如视频会议。

    DLSS 深度学习超级取样

    两年前,英伟达发布了 RTX。RTX 有两个开创性技术:第一是加速了光线跟踪,第二个开创性技术是深度学习。光线跟踪技术的市场竞争十分激烈,英伟达制造出的加速器尽管很优秀,但却不够快,所以才会有了人工智能。在过去 3 年里,其致力于解决这一问题。



    黄仁勋表示,用最快的 GPU 生成一个分辨率相对较低的 540p 图片,以及一个运动向量。像素点在哪里,就移动到哪里,通过深度学习教会人工智能学习神经网络,最终可以生成分辨率 1080p 的图像。



    英伟达对此进行了无数次实验,最终发现这个训练后的神经网络仅仅通过若干个像素点和运动向量就能生成漂亮的图片。英伟达把这个神经网络搭载到驱动程序中,将其称之为 DLSS 深度学习超级取样(Deep Learning Super Sampling)。


    在 DLSS 1.0 和 2.0 版本的对比中可以看到,2.0 版本可以看到很多 1.0 版本中没有展示出来的内容。这是因为神经网络经过训练后还原了图片本来的样子。因为在生成图片的同时结合了运动向量,所以神经网络能够预测图片里面的内容。




    两款边缘 AI 平台此外,英伟达还推出了两款计算平台,分别是适用于大型商业通用服务器的 EGX A100 和适用于微型边缘服务器的 EGX Jetson Xavier NX 。


    EGXA100 是基于安培架构的 A100 GPU,每秒可接收高达 200GB 数据并将其直接发送到 GPU 内存以进行 AI 或 5G 信号处理。EGX Jetson Xavier NX 则被称为全球体积最小、性能最强大的 Al 超级计算机,适用于微型服务器和边缘智能物联网盒。

    结语:“核弹厂”回来了

    在演讲的一开始,黄仁勋说:


    目前,英伟达的加速计算平台发展正处于转折点,在过去几年有两个新的变化出现:加速计算机发展到了下一个阶段,这种新型算法的出现称为数据驱动或机器学习算法,数据处理和数据移动使得数据中心比以往任何适合时候都要重要。第二是我们正在使用的应用程序的处理量太大,不适合在任何计算机上运行。


    他认为,未来十年,数据中心规模计算将更加规范化,而数据中心将是基本的计算单元。借助软件定义的数据中心和应用程序,开发者能够编写出在在整个数据中心运行的应用程序,现在要考虑的是优化数据中心的整个端到端网络,高速联网的重要性和数据中心的处理能力正是英伟达收购 Mellanox 的原因。


    从今天的一系列发布上也能够看出,英伟达的重心正在转移,凭借着自身的算力优势和 Mellanox 的技术加持,英伟达找到了新的发展方向。


    犹记得 2018 年 GTC China 前夕,英伟达股价遭到腰斩,市值蒸发 200 亿美元;一年后,英伟达敛起锋芒,低调了一整年,直到年底的 GTC China 2019 也没有更多的新品发布,更是让外界一度以为这家公司的威力不再;今天,英伟达用全新的产品向全世界宣布:英伟达仍然是那个惊喜不断的“核弹厂”。


    文章版权归极客邦科技 InfoQ 所有,未经许可不得转载。


    活动推荐:

    2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

    2020-05-15 07:008487

    评论 1 条评论

    发布
    暂无评论
    发现更多内容

    一文看懂:近期不断 “狂飙” 的 ChatGPT | 社区征文

    架构精进之路

    ChatGPT

    号码隐私保护服务:保障亿万消费者的隐私安全

    阿里云视频云

    云计算

    YOLOv5全面解析教程⑤:计算mAP用到的Numpy函数详解

    OneFlow

    人工智能 深度学习

    前端必会react面试题

    beifeng1996

    前端 React

    2023年最佳Aspera替代方案,选择适合的Aspera替代方案

    镭速

    前端经典面试题(有答案)

    loveX001

    JavaScript 前端

    见山,见路,见天地:OpenHarmony的开源共建攀登

    脑极体

    开源鸿蒙

    NLP 双数组字典树(double array trie) 基于darts-java改进,增加词性存储。

    alexgaoyh

    elasticsearch nlp darts-java 词性 double array trie

    新一代通信协议—— RSocket

    老周聊架构

    响应式编程 2月月更 rsocket

    C++入门简单实例

    老王同学

    c++ 入门

    “堆内存持续占用高 且 ygc回收效果不佳” 排查处理实践

    京东科技开发者

    前端 堆内存 回收器 JavaScrip 企业号 3 月 PK 榜

    研发效能度量标准与实践

    思码逸研发效能

    研发效能

    如何开发一个市值管理机器人?

    加密先生

    机器人开发

    一文深度解读音视频行业技术发展历程

    阿里云视频云

    云计算

    根据文本描述生成视频,Tune-A-Video 效果惊艳

    Zilliz

    计算机视觉

    ChatGPT看技术发展趋势| 社区征文

    向阳逐梦

    人工智能 openai ChatGPT

    志愿者招募令|来!一起Build OceanBase第一次开发者大会

    OceanBase 数据库

    数据库 oceanbase

    N皇后问题的回溯法实现

    老王同学

    c++ 八皇后 回溯法

    问:React的setState为什么是异步的?

    beifeng1996

    前端 React

    美团前端常见react面试题(附答案)

    beifeng1996

    前端 React

    老生常谈React的diff算法原理-面试版

    beifeng1996

    前端 React

    22道js输出顺序问题,你能做出几道

    loveX001

    JavaScript 前端

    ChatGPT 不仅是 AI 的成功,也是云计算的成功 | 社区征文

    多颗糖

    云计算 AI 云原生 ChatGPT

    chianmaker交易初探

    liwh1227

    区块链 共识算法 联盟链架构

    如何快速理解事务隔离

    Dinfan

    数据库 innodb 事务隔离

    Python:Excel自动化实践入门篇 乙【送图书活动继续】

    eng八戒

    Python Excel Python自动化办公

    浅析大促备战过程中出现的 fullGc,我们能做什么?

    京东科技开发者

    JVM 内存 GC java 企业号 3 月 PK 榜

    重磅 | 超级自动化行业黑马九科信息再获数千万A+轮融资 ——电科信息领投,深创投索斯福跟投,老股东信天创投、青松基金追加投资

    九科Ninetech

    美团前端二面面试题

    loveX001

    JavaScript 前端

    面试官:说说Event Loop事件循环、微任务、宏任务

    loveX001

    JavaScript 前端

    一次线上OOM问题分析

    艾小仙

    Java OOM 问题排查 排查方法

    • 扫码添加小助手
      领取最新资料包
    英伟达安培架构来了!7nm制程,540亿晶体管,AI算力提升可达20倍_架构_赵钰莹_InfoQ精选文章