ImageNet Training in Minutes_语言 & 开发_Alex-zhai_InfoQ精选文章

AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

登录/注册

ImageNet Training in Minutes

摘要与介绍

目前，缩短 DNN 的训练时间是一个热点，通用的方法聚焦于开发一种新的训练算法可在保证不损失精确性的前提下增大 batch 的大小，当然这些方法基本都基于数据并行的同步 SGD 进行参数更新。这其中经历了 batch_size 从 1K 到 8K，再增大到 32K 的过程。本文通过 LARS 算法使用 1000 个 cpu 在 11 分钟内完成了 100 个 epoch 的 Imagenet 训练集的训练，模型是 AlexNet，batch 设的是 32K，取的了 58.6%的 accuracy。另外在 resnet50 模型上，通过 64 个 epoch 的训练，在 14 分钟之内取得了 74.9% top-1 test 集的 accuracy 。另外，当 batch_size 大于 16K 时，通过 LARS 算法训练的准确率要高于 Facebook 的一小时训练 imagenet 那篇文章中的结果。如下图：

本文提出的算法使用了两个硬件：Intel Skylake CPU 和 Intel KNL（通用的深度学习加速器）。看到这心凉了，又是硬件在支撑。。。

计算通信比是指模型的计算代价/通信代价，一般计算通信比越高，越容易通过分布式来进行加速。如下表：ResNet50 的计算通信比要高于 AlexNet，所以 ResNet50 的分布式训练加速效果要好。另外大的 batch_size 可以减小通信代价，因为大的 batch 意味着更少轮次的迭代。

本文使用的方法是：LARS + Warmup。

下面具体介绍下 LARS 算法：

标准的 SGD 对于网络的每一层都使用相同的学习率 LR，当学习率很大时，更新的幅度会很大，容易导致发散的情况。这就使得模型在最初阶段对于 weight 的初始化和学习率设置显得十分重要。另外权重与梯度的 L2-norm 比在不同 weight、layer 见变动很大。

warm-up 方法会在一开始先从小的学习率开始，然后逐步增大到大的学习率。LARS 则会对于每一层使用一个 local 学习率 [公式] ：

其中 [公式] 是整体的学习率，[公式]是每一层的学习率，计算方法为：

如果加上 weight decay 参数 [公式] 后，上式可写成：

完整的 LARS 算法为：

实验结果：

这里就贴一个 resnet50 的结果吧，可以看出使用 LARS 算法可以将 batch size 扩展到 32k，另外还可以使用更廉价的芯片进行计算。使用 512 个 Intel KNL 可在 1 个小时内完成训练。512 个 KNL 按照市场价是 120 万美金，远远低于之前 Facebook 的 410 万美金 (32 台 NVIDIA DGX 工作站)。

与其它方法的对比：

参考文献：

https://arxiv.org/pdf/1709.05011.pdf

https://arxiv.org/pdf/1708.03888.pdf

本文转载自 Alex-zhai 知乎账号。

原文链接：https://zhuanlan.zhihu.com/p/81243154

评论

发布

暂无评论

Sentieon | 应用教程：Sentieon分布模式

基因数据分析生信服务分布式数据存储模块分布模式 Sentieon

OpenAI 曝新项目「草莓」，提升 AI 推理能力；智谱 AI 开源视频理解模型丨 RTE 开发者日报

阿里巴巴中国站1688商品详情API返回值分析：商品数据驱动的竞争对手分析

技术冰糖葫芦

API 安全 API 文档 API 开发 API 协议

利用淘宝商品详情API接口，打造智能化电商数据分析平台

技术冰糖葫芦

API 安全 API 文档 API 开发 API 协议

软件测试学习笔记丨接口自动化测试框架介绍

腾讯云首发大数据高性能计算引擎Meson，支持三大产品线性能升级

腾讯云大数据

观测云对接 Fluentd 采集业务日志最佳实践

MoneyPrinterPlus全面支持本地Ollama大模型

程序那些事

工具程序那些事 AIGC

基于低代码思想的可视化开发平台：引领未来软件开发的新趋势

不在线第一只蜗牛

软件开发低代码可视化

谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

Openlab_cosmoplat

人工智能开源 ChatGPT

在线PDF转PPT软件！这2款AI工具值得推荐！

职场 PPT 办公软件效率软件 AI生成PPT

如何基于 Elasticsearch 实现排序沉底或前置

字节跳动云原生计算

elasticsearch ES

性能测试：性能测试计划

霍格沃兹测试开发学社

软件测试学习笔记丨接口请求体-文件

小智常见报表示例--层次坐标--同比报表

前端开发-- Webpack 代码分割和懒加载技术

不在线第一只蜗牛

前端 Web webpack

如何实现一个分布式锁

不在线第一只蜗牛

玩转生成式 AI ，抓住时代机遇

利用财务团队的转型来推动企业业务成功

企业管理全面预算管理财务管理

Java程序员眼中的Rust系列 — 1.初见

卷不动了！去香港工作可以重启人生吗？

技术干货｜数据科学助力制造业智能化变革

Altair RapidMiner

人工智能机器学习算法数据分析 altair