报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

机器学习三个时代的计算趋势

  • 2022-04-13
  • 本文字数:1237 字

    阅读完需:约 4 分钟

机器学习三个时代的计算趋势

决定现代机器学习发展的三个基础是计算、数据和算法进化 (ML,机器学习),本文着眼于最易量化的元素的趋势。


在 2010 年之前,训练计算的发展与摩尔定律同步,每两年一翻;自 2010 年代初,引入深度学习以来,训练计算的速度已经加快,大约每六个月增加一倍;2015 年末,出现了一种新的趋势。

 

基于这些观察,机器学习的计算历史被划分为三个时代——前深度学习时代深度学习时代大规模时代。本文总结了用于训练高级机器学习系统快速增长的计算需求。

趋势


比较是在一个由 123 个里程碑式的机器学习系统组成的数据集上进行的,并标注了训练它们所需的计算量。在深度学习起步之前,有一段进展缓慢的时间,这种趋势在 2010 年加速,此后一直没有放缓。另外,在 2015 年和 2016 年,出现了大规模模型的新趋势,以比上一个时代快两个数量级的速度扩张。

 


来源: https://arxiv.org/pdf/2202.05924.pdf


过渡到深度学习


在深度学习出现之前和之后,人们注意到了两种不同的趋势机制。


此前,训练机器学习算法所需的算力是每 17 至 29 个月翻一番。之后,整体趋势加快速,每 4 到 9 个月翻一番。


根据摩尔定律,晶体管密度每两年翻一番(Moore,1965 年),通常简化为计算性能每两年翻一番——基本上符合前深度学习时代的趋势。目前尚不清楚深度学习时代何时开始,从前深度学习到深度学习时代的过渡没有明显的间断。此外,无论深度学习时代始于 2010 年还是 2012 年,结果几乎都不会改变。

 

来源:https://arxiv.org/pdf/2202.05924.pdf


大规模深度时代的趋势


数据显示,大规模型模型的新趋势始于 2015-2016 年,这种新趋势始于 2015 年底的 AlphaGo,一直持续到现在,大规模模型是由大公司训练的,更高的训练预算可能是打破先前的趋势的原因。

 

另外,常规规模模型受欢迎的程度并未受到影响,这一趋势在 2016 年之前和之后是相同的速度,每 5 到 6 个月翻一番,如下表所示。大规模模型的计算量增加的趋势明显放缓,每 9 到 10 个月翻一番。由于这些模型的数据有限,明显放缓可能是噪声的结果。


这一发现与 Amodei & Hernandez (2018) 和 Lyzhov (2021) 形成对比,前者发现 2012 年至 2018 年的倍增期为 3.4 个月,后者发现 2018 年至 2020 年的倍增期超过 2 年。以前的评估无法区分这两个独立的模式,因为大规模的趋势是最近才发展起来的。

 


来源:https://arxiv.org/pdf/2202.05924.pdf

结论


研究结果与早期研究一致,这显示了训练计算更适度的规模。1952 年到 2010 年有 18 个月的倍增时间,2010 年到 2022 年有 6 个月的倍增时间,从 2015 年末到 2022 年的大规模新趋势,快了 2 到 3 个数量级,倍增时间为 10 个月。

 

总而言之,在前深度学习时代,计算进展缓慢,随着 2010 年进入深度学习时代,这种趋势加速了。在 2015 年底,企业开始生产优于趋势的大规模模型,如 AlphaGo,标志着大规模时代的开始。然而,这并不能确定区分大规模和常规规模的模型而形成模式。

 

在计算机教学中,硬件基础设施和工程师的作用越来越大,凸显了两者的战略必要性。获得巨大的计算预算或计算集群,以及应用它们的专业知识,已经成为前沿机器学习研究的代名词。


原文链接:This Research Paper Explain The Compute Trends Across Three Eras Of Machine Learning

2022-04-13 10:562471

评论

发布
暂无评论
发现更多内容

ARTS-week1

书生

自学技术看这些网站就够了!

我是程序员小贱

学习

ChaosBlade:从零开始的混沌工程(一)

郭旭东

云原生 混沌工程

绝对坦诚:打造团队自我进化能力的最佳姿势

伴鱼技术团队

团队管理 企业文化 团队协作 技术管理 文化

地摊经济一千年:从《韩熙载夜宴图》到木屋烧烤“撸串”

punkboy

产品经理 商业 新闻动态 新基建 地摊

如果我能找到工作,那么你也行

escray

观察者模式——窥探JDK和Spring中的设计模式

大头星

spring jdk 面试 设计模式 Java 25 周年

原创 | TDD工具集:JUnit、AssertJ和Mockito (十八)编写测试-测试执行顺序\嵌套的测试

编程道与术

Java 编程 TDD 单元测试 JUnit

分布式事务 - 分布式事务框架Seata

Java收录阁

分布式事务

白话说流——什么是流,从批认识流(一)

KAMI

大数据 flink 流计算

我的编程之路 -7(T型人才)

顿晓

T型人才 编程之路

架构师训练营-第一节

Geek_af3d01

ARTS - Week 2

Khirye

ARTS 打卡计划 arts

别再说你不懂Linux内存管理了,10张图给你安排的明明白白

程序员柠檬

Linux 后台开发

2020.06.04,我在《架构师训练营》的学习历程:架构方法

程序员二师兄

极客大学架构师训练营

使用Nginx防止IP地址被恶意解析

Noneplus

nginx 恶意解析

装饰模式——看JDK和Spring是如何杜绝继承滥用的

大头星

Java spring jdk 面试 设计模式

【写作群星榜】5.29~6.4写作平台优秀作者&文章排名

InfoQ写作社区官方

写作平台 排行榜 热门活动

极客大学架构师训练营 听课总结 -- 第一课

John(易筋)

极客时间 架构 极客大学 架构师 极客大学架构师训练营

重学 Java 设计模式:实战桥接模式(多支付渠道「微信、支付宝」与多支付模式「刷脸、指纹」场景)

小傅哥

设计模式 小傅哥 重构 代码质量 桥接模式

9种 分布式ID生成方案,我替你整理好了

程序员小富

Java MySQL 分布式

不到100行代码的iOS组件化你怕了么?

Geek_i59t1w

ios 组件化 url scheme scheme

不同层次格局的差异

kimmking

RUST IN BLOCKCHAIN 五月简报

Aimee 阿敏

rust crypto blockchain

分布式场景之刚性事务-2PC详解

奈学教育

分布式 2PC

人人都能看懂的 6 种限流实现方案!(纯干货)

王磊

Java 「Java 25周年」 Java 25 周年

六处提及区块链!海南自贸港区块链产业应用先行,与“币”划清界限

CECBC

区块链技术 海南方案 严控 产业

初识软件架构

陈皮

Architecture Architect

Vue&SpringBoot前后端项目分离构建

夏悸

Spring Boot Vue 大前端

有时候爱也是一种负担

小天同学

日常思考 爱情 个人感悟

CDN百科第三讲 | 如果用了云服务器,还需要做CDN加速吗?

阿里云Edge Plus

CDN

机器学习三个时代的计算趋势_AI&大模型_Annu Kumari_InfoQ精选文章