QCon北京|3天沉浸式学习,跳出信息茧房。 了解详情
写点什么

机器学习三个时代的计算趋势

  • 2022-04-13
  • 本文字数:1237 字

    阅读完需:约 4 分钟

机器学习三个时代的计算趋势

决定现代机器学习发展的三个基础是计算、数据和算法进化 (ML,机器学习),本文着眼于最易量化的元素的趋势。


在 2010 年之前,训练计算的发展与摩尔定律同步,每两年一翻;自 2010 年代初,引入深度学习以来,训练计算的速度已经加快,大约每六个月增加一倍;2015 年末,出现了一种新的趋势。

 

基于这些观察,机器学习的计算历史被划分为三个时代——前深度学习时代深度学习时代大规模时代。本文总结了用于训练高级机器学习系统快速增长的计算需求。

趋势


比较是在一个由 123 个里程碑式的机器学习系统组成的数据集上进行的,并标注了训练它们所需的计算量。在深度学习起步之前,有一段进展缓慢的时间,这种趋势在 2010 年加速,此后一直没有放缓。另外,在 2015 年和 2016 年,出现了大规模模型的新趋势,以比上一个时代快两个数量级的速度扩张。

 


来源: https://arxiv.org/pdf/2202.05924.pdf


过渡到深度学习


在深度学习出现之前和之后,人们注意到了两种不同的趋势机制。


此前,训练机器学习算法所需的算力是每 17 至 29 个月翻一番。之后,整体趋势加快速,每 4 到 9 个月翻一番。


根据摩尔定律,晶体管密度每两年翻一番(Moore,1965 年),通常简化为计算性能每两年翻一番——基本上符合前深度学习时代的趋势。目前尚不清楚深度学习时代何时开始,从前深度学习到深度学习时代的过渡没有明显的间断。此外,无论深度学习时代始于 2010 年还是 2012 年,结果几乎都不会改变。

 

来源:https://arxiv.org/pdf/2202.05924.pdf


大规模深度时代的趋势


数据显示,大规模型模型的新趋势始于 2015-2016 年,这种新趋势始于 2015 年底的 AlphaGo,一直持续到现在,大规模模型是由大公司训练的,更高的训练预算可能是打破先前的趋势的原因。

 

另外,常规规模模型受欢迎的程度并未受到影响,这一趋势在 2016 年之前和之后是相同的速度,每 5 到 6 个月翻一番,如下表所示。大规模模型的计算量增加的趋势明显放缓,每 9 到 10 个月翻一番。由于这些模型的数据有限,明显放缓可能是噪声的结果。


这一发现与 Amodei & Hernandez (2018) 和 Lyzhov (2021) 形成对比,前者发现 2012 年至 2018 年的倍增期为 3.4 个月,后者发现 2018 年至 2020 年的倍增期超过 2 年。以前的评估无法区分这两个独立的模式,因为大规模的趋势是最近才发展起来的。

 


来源:https://arxiv.org/pdf/2202.05924.pdf

结论


研究结果与早期研究一致,这显示了训练计算更适度的规模。1952 年到 2010 年有 18 个月的倍增时间,2010 年到 2022 年有 6 个月的倍增时间,从 2015 年末到 2022 年的大规模新趋势,快了 2 到 3 个数量级,倍增时间为 10 个月。

 

总而言之,在前深度学习时代,计算进展缓慢,随着 2010 年进入深度学习时代,这种趋势加速了。在 2015 年底,企业开始生产优于趋势的大规模模型,如 AlphaGo,标志着大规模时代的开始。然而,这并不能确定区分大规模和常规规模的模型而形成模式。

 

在计算机教学中,硬件基础设施和工程师的作用越来越大,凸显了两者的战略必要性。获得巨大的计算预算或计算集群,以及应用它们的专业知识,已经成为前沿机器学习研究的代名词。


原文链接:This Research Paper Explain The Compute Trends Across Three Eras Of Machine Learning

2022-04-13 10:562451

评论

发布
暂无评论
发现更多内容

AWS 上传的 S3 文件重新载入的时候简体中文显示乱码

HoneyMoose

netty系列之:真正的平等–UDT中的Rendezvous

程序那些事

Java Netty 程序那些事 1月月更

一篇从购买服务器到部署博客代码的详细教程

冴羽

nginx 前端 后端 博客 博客搭建

kubelet 的主动驱逐POD

Geek_f24c45

Kubernetes kubelet

error: ‘slots_reference’ was not declared in this scope

Ayosh

OpenCV

《LeetCode刷题》数组与队列

IT蜗壳-Tango

IT蜗壳教学 1月月更

Spring Boot工程中如何优雅地处理异常

sean77

spring 整洁代码

Java Jackson 中的 JsonNode 和 ObjectNode

HoneyMoose

数据分析人员需要掌握SQL到什么程度?3个常考题目刷一刷

博文视点Broadview

关于ant design pro的权限方案设计

袋鼠云数栈

大数据

开源实践 | 携程在 OceanBase 的探索与实践

OceanBase 数据库

OceanBase 开源 客户案例 携程

Kubernetes生态,从繁荣走向碎片化

巨子嘉

容器 云原生

教你实现一个 iOS 重签名工具

37手游iOS技术运营团队

ios xcode

盘点 2021| 不忘初心,未来之路,与君共勉

法医

前端 盘点 2021

设计模式【8】-- 手工耿教我写装饰器模式

秦怀杂货店

Java 设计模式 装饰器

倒计时1天 | 超百位技术大咖齐聚开发者大会,与全球开发者一起“数聚未来”

OceanBase 数据库

OceanBase 开源 开发者大会

Java Jackson 中的 mapper

HoneyMoose

一键抠除路人甲,昇腾CANN带你识破神秘的“AI消除术”

华为云开发者联盟

CANN 昇腾 图像消除 智能实例分割 CRA算法

杜甫草堂

wood

300天创作

一个cpp协程库的前世今生(十一)等待与返回值

SkyFire

c++ cocpp

【LeetCode】 替换所有的问号Java题解

Albert

算法 LeetCode 1月月更

工作中遇到的50个JavaScript的基础知识点

Sunshine_Lin

面试 前端 进阶 基础

面试突击13:方法优先调用可选参数还是固定参数?

王磊

java面试 2022

ReactNative进阶(四):ReactNative 原理剖析之JS 层渲染 diff 算法

No Silver Bullet

React Native 渲染性能 1月月更

Kafka往事——揭露Kafka推出Kafka Streams背后原因

Kafka中文社区

明道云虹桥演示中心,欢迎进店!

明道云

服务发现与配置管理高可用最佳实践

阿里巴巴云原生

阿里云 微服务 高可用 云原生 MSE

使用LNMP环境部署码云测试项目

咿呀呀

lnmp

Apache APISIX 结合 Authing 实现集中式身份认证管理

API7.ai 技术团队

api 网关 Apache APISIX Authing 身份验证

【LeetCode】奇偶树Java题解

Albert

算法 LeetCode 1月月更

阿里云万郁香:多样付费选择构筑成本最优的弹性体验

阿里云弹性计算

阿里云 年度峰会 付费方式

机器学习三个时代的计算趋势_AI&大模型_Annu Kumari_InfoQ精选文章