摘要与介绍
目前，缩短DNN的训练时间是一个热点，通用的方法聚焦于开发一种新的训练算法可在保证不损失精确性的前提下增大batch的大小，当然这些方法基本都基于数据并行的同步SGD进行参数更新。这其中经历了batch_size从1K到8K，再增大到32K的过程。本文通过LARS算法使用1000个cpu在11分钟内完成了100个epoch的Imagenet训练集的训练，模型是AlexNet，batch设的是32K，取的了58.6%的accuracy。另外在resnet50模型上，通过64个epoch的训练，在14分钟之内取得了74.9% top-1 test集的accuracy 。另外，当batch_size大于16K时，通过LARS算法训练的准确率要高于Facebook的一小时训练imagenet那篇文章中的结果。如下图：

本文提出的算法使用了两个硬件：Intel Skylake CPU和Intel KNL（通用的深度学习加速器）。看到这心凉了，又是硬件在支撑。。。

计算通信比是指模型的计算代价/通信代价，一般计算通信比越高，越容易通过分布式来进行加速。如下表：ResNet50的计算通信比要高于AlexNet，所以ResNet50的分布式训练加速效果要好。另外大的batch_size可以减小通信代价，因为大的batch意味着更少轮次的迭代。

本文使用的方法是：LARS + Warmup。

下面具体介绍下LARS算法：

标准的SGD对于网络的每一层都使用相同的学习率LR，当学习率很大时，更新的幅度会很大，容易导致发散的情况。这就使得模型在最初阶段对于weight的初始化和学习率设置显得十分重要。另外权重与梯度的L2-norm比在不同weight、layer见变动很大。

warm-up方法会在一开始先从小的学习率开始，然后逐步增大到大的学习率。LARS则会对于每一层使用一个local 学习率 [公式] ：

其中 [公式] 是整体的学习率，[公式]是每一层的学习率，计算方法为：

如果加上weight decay参数 [公式] 后，上式可写成：

完整的LARS算法为：

实验结果：

这里就贴一个resnet50的结果吧，可以看出使用LARS 算法可以将 batch size 扩展到 32k，另外还可以使用更廉价的芯片进行计算。使用512个Intel KNL可在1个小时内完成训练。512个KNL按照市场价是120万美金，远远低于之前Facebook的410万美金 (32台NVIDIA DGX 工作站)。

与其它方法的对比：

参考文献：

https://arxiv.org/pdf/1709.05011.pdf
https://arxiv.org/pdf/1708.03888.pdf

本文转载自Alex-zhai知乎账号。

原文链接：https://zhuanlan.zhihu.com/p/81243154

创作场景

ImageNet Training in Minutes