卷首语:工业级深度学习已经进入 2.0 阶段
作者:阿里资深算法专家 朱小强
机器学习和深度学习在互联网行业核心业务应用实践可以分为两个阶段。
第一个阶段是从 2000 年到 2015 年,可以将它粗浅地定义为基于大规模机器学习的上一代技术体系。这个技术体系在最初的十年里,机器学习相关的技术研发还是凤毛麟角,只有一些简单的应用。后来的 5 年成为了机器学习技术在工业界发展的黄金时间,包括百度、谷歌等国内外巨头都是在这个时间段内开始大力推动并引领了机器学习技术的规模化落地。最初工业界试图应用机器学习技术来解决问题的时候,发现学术界推出的各种复杂的算法模型对于工业界并不适用,因为工业界的数据规模实在太大了,复杂的模型根本训练不起来。为了将这些算法模型落地,工业界付出了很大的代价,其中一个关键要素是大规模分布式机器学习架构,例如基于参数服务器(Parameter Server)的并行训练系统就是这个阶段的典型代表作。此外,这期间也伴随着大数据架构如 Hadoop、Spark 等的兴起,为机器学习技术在工业界的实际应用起到了重要推动力。
第二个阶段始于 2015 年年底 2016 年初,以广告、推荐和搜索为代表的互联网公司开始发现,新一轮爆发于学术界和传统 AI 领域(如语音、图像等)的深度学习浪潮,也给互联网技术带来了全新的机会。过去的大规模机器学习,模型本身相对来讲比较固化和简单,还是偏重以人工先验设计加工的数据模式为主,但这一代的深度学习技术带来了更彻底的变革。
首先深度学习本身的模型容量更大、变化更丰富,可以针对具体的场景数据进行模型的自由定制;其次,模型的设计变得更加简单,基于标准化的深度学习训练框架可以非常容易地实现一个全新的算法模型并进行大规模的分布式训练,普通的算法工程师就能轻松完成这个过程。而在以前的大规模机器学习阶段,需要非常强大的专业团队花费大量时间才能定制式地研发出一个工业级可用的新模型算法;此外,当模型训练出来之后,现在已经有一个非常体系化的流水线来支持任意复杂算法模型快速部署到线上提供服务。
这是这一代深度学习技术带来的巨大变革:算法结合算力的突破,从离线到在线、从数据到业务系统到背后整个算法体系,整个都串起来形成了一个体系化的 Pipeline。而且相比大规模机器学习时代,这个 Pipeline 的复杂性更高,但迭代进化的速度更快。
深度学习的技术爆发为互联网广告等行业带来了数十亿甚至百亿规模的营收提升,这是非常巨大的业务突破。但是,深度学习带来的提升并不是毫无代价的。深度学习的爆发就像超新星一样,突然一下子很亮,但非常快就会变成黑洞,变成黑洞之后,它会吞噬什么呢?
深度学习短短 2-3 年时间,就迅速地把工业界上一代十几年建立起来的整个体系存量,包括数据、系统、架构、算力等全部吃掉了。这就导致我们不得不面临这样一个问题:我们曾经引以为傲地认为是算力推动了这一轮 AI 的突破性发展,但今天,至少在工业级应用场景下,算力已经成为了阻力。其背后更深层次的原因,是由 GPU 带来的单点算力红利已经基本消失,相应地嵌入 GPU 算力的工业系统架构依然原地踏步、发展不适配。
如何重新设计过去这个持续了十几年的系统架构,是头部企业已经开始重点关注的问题。以广告场景举个例子,现有系统架构普遍遵循“匹配 - 召回 - 海选 - 粗排 - 精排 - 重排 - 策略机制”的链路体系,这个链路每一步都在考虑如何在算力约束下,尽可能地通过算法的手段去逼近最优效果、减少折损。然而,深度学习伴随的 GPU 算力升级,某种程度上已经可以打破这种体系。接下来工业级深度学习将进入 2.0 阶段,而这一阶段面临的问题本质上不是深度学习变了,也不是算力变了,算力不可能天天呈爆炸式发展,而会慢慢形成一个台阶并至少暂时停留一段时间。今天这个阶段面临的核心问题是,当前深度学习仍然跑在为上一代大规模机器学习模型需求而构建的那套系统架构之上。但过去的那套架构已经不太适合如今数据、算法和算力背后的需求。如今,算力和算法模型逐渐成为企业新的基础设施,如何面向业务场景的需求和数据的特性,对算力、算法和系统架构之间做协同设计(co-design),才是今天需要去思考的更彻底的一次变化。
工业级深度学习发展到今天,仅单独依赖工业界或者学术界、甚至仅依赖某几个头部公司或实验室来推动已经远远不够。工业界擅长将成熟的技术落地,学术界擅长对问题的抽象、定义和基础性研究,但今天大量的问题和数据在工业界,工业界不同规模公司的奔跑速度和进度也差异很大。下一代工业级深度学习需要工业界与学术界共同推进。
目录
生态评论
AI 走向自我毁灭?DeepMind 一年亏损 40 亿到底意味着什么
自动驾驶趋冷,RoboTaxi 渐热
重磅访谈
独家专访 AI 大神贾扬清:我为什么选择加入阿里巴巴?
企业机器学习平台
华泰证券基于 Kubernetes 构建 AI 基础平台的落地实践
推荐阅读
Tensorflow 2.0 到底好在哪里?
精选论文导读
基于深度学习的推荐系统效果遭质疑,它真的有带来实质性进展吗?
评论