QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

AI 训练的效率正在超越摩尔定律

  • 2022-02-16
  • 本文字数:1981 字

    阅读完需:约 6 分钟

AI训练的效率正在超越摩尔定律

仅仅在几年前,训练一个 AI 模型所需的时间还可能长达数周之久。


这也是过去几年间,计算行业间涌现了众多价值数十亿美元的创新初创公司的重要原因所在——这些公司包括了 Cerebras Systems、Graphcore、Habana Labs 和 SambaNova Systems 等等。此外,谷歌、英特尔、英伟达和其他老牌公司也在企业内部投入了规模相当的巨额资金(有时还会发起收购计划)来探索这一领域。最新版本的 MLPerf 训练基准结果表明,这笔钱是物有所值的。


MLPerf 母公司 MLCommons 的执行董事 David Kanter 表示,自 MLPerf 基准测试开始上线以来,人工智能训练性能的提升速度“成功地大大超过了摩尔定律”


在早期版本的 MLPerf 基准测试最佳结果与 2021 年 6 月之后的基准测试最佳结果之间,晶体管密度的增长可以解释其中一倍多的差异。但是软件以及处理器和计算机架构的改进则贡献了 6.8-11 倍的成绩增长。在最新的 1.1 版测试中,最佳结果是 6 月份最佳成绩的 2.3 倍。


根据英伟达的说法,使用 A100 GPU 的系统的性能相比 18 个月前的系统提高了 5 倍以上,相比三年前 MLPerf 基准测试成绩首次发布时的结果提高了 20 倍。


微软首次将其 Azure 云 AI 产品引入了 MLPerf,使用各种资源在所有八个测试网络中取得了极佳的成绩。它们的规模从 2 个 AMD Epyc CPU 和 8 个英伟达 A100 GPU,直到 512 个 CPU 和 2048 个 GPU 不等。规模显然很重要。顶级规格的系统在不到一分钟的时间内就训练完了 AI 模型,而二八组合通常需要 20 分钟或更长时间。



“摩尔定律只能做到这么多。软件和其他进步在 AI 训练的进化道路上发挥了重要作用。”

——MLCommons


英伟达在基准测试中与微软密切合作。并且就像之前的 MLPerf 列表中人们看到的一样,英伟达 GPU 是大多数参赛作品背后的 AI 加速器。包括戴尔、浪潮和 Supermicro 的作品都采用了他们的 GPU。


英伟达凭借其 Selene AI 超级计算机无与伦比的规模,在商用系统的所有结果中名列前茅。Selene 由商用的模块化 DGX SuperPod 系统组成。在最大规模的测试中,Selene 使用 1080 个 AMD Epyc CPU 和 4320 个 A100GPU 在不到 16 秒的时间内就训练完了自然语言处理器 BERT,大多数小型系统完成同样的壮举需要花费大约 20 分钟。


根据英伟达的说法,使用 A100 GPU 的系统的性能相比 18 个月前的行业水平提高了 5 倍以上,相比三年前首次 MLPerf 基准测试结果发布时提高了 20 倍。该公司表示,这要归功于软件创新和网络的改进成果。(有关更多信息,请参阅英伟达的博客


鉴于英伟达在这些 AI 基准测试中的统治力和成绩表现,新生的竞争对手很自然地会将自身与它进行比较。这就是总部位于英国的 Graphcore 正在做的事情,它指出他们研发的基本计算单元 Pod16(1 个 CPU 和 16 个 IPU 加速器)比英伟达的基本单元 DGX A100(2 个 CPU 和 8 个 GPU)快了近一分钟。


Graphcore 推出了更大的系统


对于这一版本的 MLPerf,Graphcore 使用其基本单元 Pod64、Pod128 和(你肯定猜得到吧?)Pod256 的组合参加了图像分类和自然语言处理基准测试。Pod256 由 32 个 CPU 和 256 个 IPU 组成,是仅次于英伟达的 Selene 和英特尔的 Habana Gaudi 的第四快系统,以 3:48 完成了 ResNet 图像分类训练。在自然语言处理方面,Pod256 和 Pod128 在榜单上排名第三和第四,再次落后于 Selene,分别以 6:54 和 10:36 结束。(有关更多信息,请参阅 Graphcore 的博客


你可能已经注意到了,基于英伟达的产品(大约 1 比 4)和 Graphcore 的系统(低至 1 比 32)对比,它们的 CPU 与加速器芯片的比率有很大不同。Graphcore 工程师说,这是设计理念使然。IPU 旨在让神经网络减少对 CPU 控制的依赖。


你会在 Habana Labs 系统上看到相反的情况,英特尔在 2019 年以大约 20 亿美元的价格收购了它。例如,它在图像分类方面取得了很高的排名,为此英特尔使用 64 个 Xeon CPU 和 128 个 Habana Gaudi 加速器在不到 5 分半的时间内训练完了 ResNet。它还使用 32 个 CPU 和 64 个加速器,用时 11 分 52 秒训练完了 BERT 自然语言神经网络。(更多信息请参阅 Habana 的博客


谷歌对这批基准分数的贡献有点不一样。谷歌工程师没有使用该公司的 TPU v4 处理器技术搭载在商业或云系统上完成测试,而是提交了两个超大自然语言处理神经网络的结果。


该公司使用其公开可用的 TPU v4 云运行了一个版本的 Lingvo,这是一种 NLP,其参数高达 4800 亿,而 BERT 的参数为 1.1 亿。云平台使用 1024 个 AMD Epyc CPU 和 2048 个 TPU,在不到 20 小时的时间内完成了训练任务。使用由 512 个 AMD Rome CPU 和 1024 个 TPU 组成的研究系统,谷歌在 13.5 小时内训练了一个 2000 亿参数版本的 Lingvo。(谷歌报告称,从头到尾完成整个过程需要 55 小时和 44 小时,包括开始训练所需的步骤。)


在结构上,Lingvo 与 BERT 非常相似,可以归入该类别,但它也类似于众多计算巨头一直在研究的其他真正巨型的对话 AI,例如 LaMDA 和 GPT-3。谷歌认为,巨大模型训练最终应该成为未来 MLPerf 商业基准测试的一部分。(有关更多信息,请参阅谷歌的博客。)


然而,MLCommons 的 Kanter 指出,训练此类系统的费用高到了足以将许多参与者排除在外。


原文链接:https://spectrum.ieee.org/ai-training-mlperf

2022-02-16 10:352109
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 555.1 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

【第七在线】打破传统束缚:智能商品计划助力服装企业创新发展

第七在线

WBTT:“Fair Launch”如何做到更加公平

石头财经

WBTT:“Fair Launch”如何做到更加公平

BlockChain先知

笔记软件Notability新手使用教程:功能特点、替代软件盘点和分屏技巧!

彭宏豪95

ipad 在线白板 笔记软件 Notability boardmix

软件研发过程中,项目管理工具应该如何选择?

极狐GitLab

企业为什么要选择软件定制开发?

天津汇柏科技有限公司

软件定制 软件定制开发 软件开发定制

数据集成时表模型同步方法解析

KaiwuDB

数据库 数据同步 数据集成

软件测试|探索Flask接口路由技术:构建灵活可拓展的Python应用

霍格沃兹测试开发学社

从0到1:实验室设备借用小程序开发笔记

CC同学

WBTT:“Fair Launch”如何做到更加公平

加密眼界

C# 介绍、应用领域、入门、语法、输出和注释详解

小万哥

C# 程序人生 编程语言 软件工程 后端开发

Go 简单设计和实现可扩展、高性能的泛型本地缓存

陈明勇

Go golang 缓存 go 本地缓存

CNCF大使预测:2024年云原生面临倦怠、离职及云成本精简

SEAL安全

云原生 FinOps 开发人员

请用心对待面试机会

老张

面试经验 求职面试 求职技巧

倒计时1天|解锁「PolarDB开发者大会」正确打开方式

阿里云瑶池数据库

数据库 阿里云 云计算, 开发者大会

都是 Copycat Dex的通证,eCAT 和 CAT 这两有啥区别?

股市老人

用 25,000 颗星撬动一个向量数据库的世界

Zilliz

Milvus Zilliz AIGC 向量数据库

WBTT:“Fair Launch”如何做到更加公平

股市老人

站在AGI拐点,重新想象老年生活

脑极体

AI

为什么需要在 OpenShift 上部署企业级 Ingress Controller

NGINX开源社区

负载均衡 Kubernetes openshift Ingress Controller nginx 开源版

如何实现数据库读一致性

京东科技开发者

一文解析 Copycat Dex与 Bitcat Dex的区别

股市老人

AZ逃生:容灾部署规范和最佳实践

焦振清

服务部署 弹性伸缩 机房容灾 AZ 逃生 同城多活

左耳听风 - 高效学习「读书打卡 day 08」

Java 工程师蔡姬

学习 读书笔记 程序员 个人成长 职业发展

【深入挖掘Java技术】「源码原理体系」盲点问题解析之HashMap工作原理全揭秘(上)

码界西柚

Java 源码分析 hashmap 实现原理 2024年第十三篇文章

AI训练的效率正在超越摩尔定律_AI&大模型_SAMUEL K. MOORE_InfoQ精选文章