写点什么

美团深度学习系统的工程实践

  • 2020-02-27
  • 本文字数:4444 字

    阅读完需:约 15 分钟

美团深度学习系统的工程实践

背景

深度学习作为 AI 时代的核心技术,已经被应用于多个场景。在系统设计层面,由于其具有计算密集型的特性,所以与传统的机器学习算法在工程实践过程中存在诸多的不同。本文将介绍美团平台在应用深度学习技术的过程中,相关系统设计的一些经验。


本文将首先列举部分深度学习算法所需的计算量,然后再介绍为满足这些计算量,目前业界比较常见的一些解决方案。最后,我们将介绍美团平台在 NLU 和语音识别两个领域中,设计相关系统的经验。

深度学习的计算量

ModelInput SizeParam SizeFlops
AlexNet227 x 227233 MB727 MFLOPs
CaffeNet224 x 224233 MB724 MFLOPs
VGG-VD-16224 x 224528 MB16 GFLOPs
VGG-VD-19224 x 224548 MB20 GFLOPs
GoogleNet224 x 22451 MB2 GFLOPs
ResNet-34224 x 22483 MB4 GFLOPs
ResNet-152224 x 224230 MB11 GFLOPs
SENet224 x 224440 MB21 GFLOPs


数据来源


上表列举了,ImageNet 图像识别中常见算法的模型大小以及单张图片一次训练(One Pass)所需要的计算量。


自 2012 年,Hinton 的学生 Alex Krizhevsky 提出 AlexNet,一举摘下 ILSVRC 2012 的桂冠后,ILSVRC 比赛冠军的准确率越来越高。与此同时,其中使用到的深度学习算法也越来越复杂,所需要的计算量也越来越大。SENet 与 AlexNet 相比,计算量多了近 30 倍。我们知道,ImageNet 大概有 120 万张图片,以 SENet 为例,如果要完成 100 个 epoch 的完整训练,将需要 2.52 * 10^18 的计算量。如此庞大的计算量,已经远远超出传统的机器学习算法的范畴。更别说,Google 在论文《Revisiting Unreasonable Effectiveness of Data in Deep Learning Era》中提及的、比 ImageNet 大 300 倍的数据集。

物理计算性能

面对如此庞大的计算量,那么,我们业界当前常用的计算单元的计算力是多少呢?


  • CPU 物理核:一般浮点运算能力在 10^10 FLOPS 量级。一台 16 Cores 的服务器,大致上有 200 GFLOPS 的运算能力。实际运行,CPU 大概能用到 80%的性能,那就 160 GFLOPS 的运算能力。完成上述 SENet 运行,需要 182 天。

  • NVIDIA GPGPU: 目前的 V100,单精度浮点运算的峰值大概为 14 TFLOPS, 实际运行中,我们假设能用到 50%的峰值性能,那就是 7 TFLOPS,需要 4 天。


根据以上数据结果可以看出:在深度学习领域,GPU 训练数据集所需要耗费的时间,远远少于 CPU,这也是当前深度学习训练都是采用 GPU 的重要原因。

业界的解决方案

从前面的计算可知,即使使用 GPU 来计算,训练一次 ImageNet 也需要 4 天的时间。但对于算法工程师做实验、调参而言,这种耗时数天的等待是难以忍受的。为此,目前业界针对深度学习训练的加速,提出了各种各样的解决方案。

异构计算的并行方案

数据并行(Data Parallelism)


数据并行,即每个计算单元都保留一份完整的模型拷贝,分别训练不同的数据,经过一个 Iteration 或若干个 Iteration 后,把各个计算单元的模型做一次同步。这是最常见的深度学习训练方式,好处在于逻辑简单、代码实现方便。

模型并行(Model Parallelism)


模型并行,即各个计算单元存储同一层模型数据的不同部分,训练相同的数据。相对于数据并行,因为各个运算单元每训练完一层神经网络,就必须要同步一次,频繁的同步通信导致系统不能充分地利用硬件的运算能力,所以更为少见。但是在一些业务场景下,Softmax 层需要分类的类别可能会有很多,导致 Softmax 层太大,单个计算单元无法存储,这个时候,需要把模型切割成若干部分,存储在不同的运算单元。模型并行常见于 NLU、推荐、金融等领域。

流式并行(Stream Parallelism)


流式并行,即每个计算单元都存储不同层的模型数据,训练相同的数据。如上图所示,GPU1 只负责第一层神经网络的计算,GPU2 只负责 2~5 层神经网络的计算,GPU3 只负责第 6 层的计算。流式并行的好处在于每个运算单元之间的通信和计算重叠(overlap),如果配置得当,可以非常充分地利用硬件资源。缺点在于,根据不同的模型,需要平衡好各个计算单元的计算量,如果配置不好,很容易形成“堰塞湖”。如上图所示,很有可能出现 GPU1 负责的运算量太少,而 GPU2 负责的运算量太多,导致 GPU1 和 GPU2 之间堵塞住大量的 Mini-batch,更常见于线上环境。

混合并行(Hybrid Parallelism)


混合并行,即上面提到的并行方式的混合。如对于一些图像识别任务来说,可能前几层使用数据并行,最后的 Softmax 层,使用模型并行。

异构计算的硬件解决方案

  • 单机单卡:一个主机内安装上一块 GPU 运算卡。常见于个人计算机。

  • 单机多卡:一个主机内安装上多块 GPU 运算卡。常见的有:1 机 4 卡,1 机 8 卡,甚至有 1 机 10 卡。一般公司都采取这种硬件方案。

  • 多机多卡:多台主机内安装多块 GPU 运算卡。常见于公司内部的计算集群,一般多机之间采取 Infiniband 来实现网络的快速通信。

  • 定制化:即类似于 Google 的 TPU 解决方案。常见于“巨无霸”公司内部。

异构计算的通信解决方案

根据上面的硬件解决方案,我们以 ResNet 为例:模型的大小为 230M,单张图片运算量为 11 GFLPOS,Mini-batch 假设为 128。可以计算出各个硬件模块在深度学习训练中的耗时比较:


  • GPU:对于 V100,假设有 6 TFLOPS,一次 Mini-batch 理论耗时:0.23s。

  • PCI-E:常见 PCI-E 3.0 * 16,速度为 10 GB/s,传输一个模型的理论耗时为:0.023s。

  • 网络:假设为 10 GB/s 的高速网络,传输一个模型的理论耗时:0.023s。

  • Disk:普通的磁盘,我们假设 200M/s 的读取速度,读取一次 Mini-batch 所需要的图片耗时:0.094s。


根据上面的数据结果,我们似乎可以得出一个结论:PCI-E 和网络的传输耗时,相对于 GPU 来说,整整少了一个数量级,所以网络通信同步的时间可以忽略不计。然而问题并没有那么简单,上面例子中的耗时只是单个模型的耗时,但是对于 8 卡的集群来说,如果使用数据并行,每次同步就需要传输 8 份模型,这就导致数据传输的时间和 GPU 的计算时间“旗鼓相当”。这样的话,GPU 就得每训练完一个 Mini-batch,都得等候很久的一段时间(采取同步更新),这会浪费很多计算资源。因此,网络通信也需要制定对应的解决方案。下面我们以 Nvidia NCCL 中单机多卡的通信解决方案为例介绍,而多机多卡的通信解决方案其实是类似的。



上图是单机 4 卡机器,在硬件上,两种不同的通信体系。左边为普通的 PCI-E 通信,即 4 个 GPU 之间组成一个环状。右边为 NVLink 通信,即两两之间相互连接。


常见的通信类型如下图所示



对于深度学习训练而言,关键的两种通信类型为:Broadcast 和 Reduce。Broadcast 用于 Master 分发最新的模型给各个 GPU。Reduce 用于各个 GPU 计算完 Mini-batch 后,把模型更新值汇总到 Master 上。以 Broadcast 为例,最简单的通信方式是 Master 往各个 GPU 上发送数据,这样的耗时就是 4 次模型传输的时间,通信时间就会太长,一种简单的优化方法如下图所示:



即把所需要传输的数据分成若干块,然后通过接力的方式逐个传递,每个 GPU 都把自己最新的一块数据发送到下一个 GPU 卡上。这种传输方式能充分利用硬件层面的通信结构,使得需要的耗时大幅缩减。与此类似的,Reduce 的通信优化也可以采取相同的方式进行提速。

美团的定制化深度学习系统

尽管目前在业界已经推出了很多著名的深度学习训练平台,通用的训练平台如 TensorFlow、MxNet 等等,还有领域专用的训练平台,如语音识别中的 Kaldi,但是我们经过调研后,决定内部自主开发一套深度学习系统,理由如下:


  • 通用的训练平台,缺乏了领域特色的功能。如语音识别中的特征提取模块和算法。

  • 通用的训练平台,通常是基于 Data-flow Graph,来对计算图中的每个 operator 进行建模,所以颗粒度很小,需要调度的单元多,导任务调度复杂。

  • 领域特色的训练平台,如 Kaldi,在神经网络训练的时候,性能不足。

  • 线上业务存在很多特殊性,如果使用 TensorFlow 之类作为训练平台,不太适合线上业务的情景。

NLU 线上系统

线上系统的业务特点

我们在设计 NLU 线上系统时,考虑了 NLU 业务的一些特性。发现其具备如下的一些特点:


  • 随着业务和技术的变化,算法流程也经常发生变化。

  • 算法流程是多个算法串联组成的,不单纯的只有深度学习算法。如分词等算法就不是 DL 算法。

  • 为了能够快速响应一些紧急问题,需要经常对模型进行热更新。

  • 更重要的是,我们希望构建一个能以“数据驱动”的自动迭代闭环。


业务多变


NLU 任务的算法流程是多层级的,并且业务经常发生变化。如下图所示:



即随着业务要求的变化,NLU 系统一开始的算法流程,只需要把一个 Query 分为两个类,但是到后面,极有可能会变成需要分为三个类别。


热更新


根据业务需求,或者为了紧急处理一些特殊问题,NLU 线上系统经常需要做出快速响应,热更新算法模型。如最近的热点词“skr”,几乎是一夜之间,突然火爆起来。如下图所示的微博,如果不能正确理解“skr”的正确语义,可能就不能准确理解这条微博想要表达的意思。



为了避免影响用户体验,我们可能会对 NLU 系统,马上进行热更新,把新模型紧急进行上线。


数据驱动的自动迭代闭环



对于线上系统而言,构建如上图所示的自动迭代闭环,能更好地利用业务数据来提升服务质量。

NLU 线上系统的核心设计

算法流程的抽象


为了适应线上系统串联、多变的算法流程,我们把线上系统的算法进行抽象,如下图所示:



即每一个算法,都依赖于若干个槽位(Slot)和资源(Resource),一旦槽位和资源就位,就会触发对应的算法执行。算法的执行先通过算法适配器,来适配槽位和资源中的数据,转换成算子的输入格式。然后算子执行算法本身,执行完算子后,再经过算法解析器。算法解析器主要用于解析算法执行的结果,触发对应的槽位。如根据算法的结果,触发 Top 3 的结果。


多个算法串联起来,就构建成如下结果:



热更新流程的设计



如上图所示,我们把算法的热更新流程设计如上。初试状态为左上角,即多个 Query 使用同一份模型数据。当遇到模型更新的请求后,系统将会 block 住新的 query(右上角状态)。然后更新模型完后,新的 query 使用新的模型,旧 query 依然使用旧模型(右下角状态)。最后,当使用旧模型的 query 结束后,把旧的模型从内存中删除(左下角),然后系统恢复到初始状态。

声学模型训练系统

因为 TensorFlow 等通用深度学习训练平台,缺乏了特征提取等业务相关的领域功能,而 Kaldi 的声学模型训练过程又太慢。所以美团开发了一个声学模型训练系统——Mimir,其具备如下特性:


  • 使用比 TensorFlow 更粗颗粒度的建模单元,使得任务调度、优化更简单方便易行。

  • 使用数据并行的并行方案,单机多卡可达到近线性加速。(采取同步更新策略下,4 卡加速比达到 3.8)

  • 移植了 Kaldi 的一些特有的训练算法。

  • 速度上为 Kaldi 的 6~7 倍。(800 个小时的训练数据,单机单卡的条件下,Kaldi 需要 6~7 天, Mimir 只需 20 个小时)

  • 业务上,移植了 Kaldi 的特征提取等领域的相关模块。

参考资料

作者简介

  • 剑鹏,美团点评算法专家。2017 年加入美团,目前作为语音识别团队的声学模型负责人,负责声学模型相关的算法和系统设计与开发。


2020-02-27 10:50989

评论

发布
暂无评论
发现更多内容

以太网口硬件知识分享

芯动大师

Mac 以太网 PHY

Adobe Photoshop动作导入方法详解,PS动作安装教程

Rose

ps动作

LED显示屏与LCD显示屏的9个区别

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家 lcd

体育赛事直播源码:开发的各项功能如何提升用户体验与参与度

软件开发-梦幻运营部

鸿蒙HarmonyOS实战-ArkUI组件(Menu)

蜀道山

鸿蒙 前端 HarmonyOS 鸿蒙卡片 menu

ubuntu20使用apt安装pcl

百度搜索:蓝易云

云计算 Linux ubuntu 运维 云服务器

Centos/Ubuntu一行指令安装Docker

百度搜索:蓝易云

Docker Linux ubuntu centos windows

基于rrweb框架,搭建前端技术运营监控体系的实践分享

智在碧得

框架设计 rrweb框架 rrweb 前端框架设计 技术监控

解决Ubuntu或Debian apt-get IPv6问题:如何设置仅使用IPv4

百度搜索:蓝易云

Linux ubuntu 运维 云服务器 Debian

在线白板Miro最佳替代品!一文说清两款软件的差异!

彭宏豪95

在线白板 办公软件 在线协同 在线协作 boardmix

总结反思 持续进步-开源即时通讯(IM)项目OpenIM 新版本release-v3.7发布

Geek_1ef48b

php如何处理高并发请求

百度搜索:蓝易云

php 云计算 Linux 运维 Web

和鲸科技出席第五届空间数据智能学术会议,执行总裁殷自强受邀发表主题报告

ModelWhale

人工智能 数据模型 空间数据

开源大模型到底是不是真开源?

三掌柜

高可用 - 隔离原则

京东零售技术

架构 高可用 企业号 4 月 PK 榜

鸿蒙HarmonyOS实战-ArkUI组件(页面路由)

蜀道山

鸿蒙 架构 前端 HarmonyOS 鸿蒙系统

Linux设备驱动系列(五)——字符驱动设备文件

Linux内核拾遗

Linux内核 设备驱动

ubuntu18安装cmake27的方法

百度搜索:蓝易云

云计算 Linux ubuntu 运维 cmake

长期看好Celestia,质押TIA教程分享,以bitget为例

股市老人

EasyExcel导出-自适应图像尺寸

alexgaoyh

EasyExcel 自适应 图像 等比缩放 导出

算子开发到推理加速,一位00后开发者的“升级打怪”之旅

Alter

开发者 昇腾AI大赛 #大模型

AI工程师看这里!与真实世界数据“亲密拥抱”的机会来了!

AI浩

人工智能

释放Stable Diffusion 无限可能

亚马逊云科技 (Amazon Web Services)

Amazon Lambda Amazon S3 Glacier

美团深度学习系统的工程实践_文化 & 方法_美团技术团队_InfoQ精选文章