写点什么

ImageNet Training in Minutes

  • 2019-11-29
  • 本文字数:995 字

    阅读完需:约 3 分钟

ImageNet Training in Minutes

摘要与介绍


目前,缩短 DNN 的训练时间是一个热点,通用的方法聚焦于开发一种新的训练算法可在保证不损失精确性的前提下增大 batch 的大小,当然这些方法基本都基于数据并行的同步 SGD 进行参数更新。这其中经历了 batch_size 从 1K 到 8K,再增大到 32K 的过程。本文通过 LARS 算法使用 1000 个 cpu 在 11 分钟内完成了 100 个 epoch 的 Imagenet 训练集的训练,模型是 AlexNet,batch 设的是 32K,取的了 58.6%的 accuracy。另外在 resnet50 模型上,通过 64 个 epoch 的训练,在 14 分钟之内取得了 74.9% top-1 test 集的 accuracy 。另外,当 batch_size 大于 16K 时,通过 LARS 算法训练的准确率要高于 Facebook 的一小时训练 imagenet 那篇文章中的结果。如下图:



本文提出的算法使用了两个硬件:Intel Skylake CPU 和 Intel KNL(通用的深度学习加速器)。看到这心凉了,又是硬件在支撑。。。


计算通信比是指模型的计算代价/通信代价,一般计算通信比越高,越容易通过分布式来进行加速。如下表:ResNet50 的计算通信比要高于 AlexNet,所以 ResNet50 的分布式训练加速效果要好。另外大的 batch_size 可以减小通信代价,因为大的 batch 意味着更少轮次的迭代。



本文使用的方法是:LARS + Warmup。


下面具体介绍下 LARS 算法:


标准的 SGD 对于网络的每一层都使用相同的学习率 LR,当学习率很大时,更新的幅度会很大,容易导致发散的情况。这就使得模型在最初阶段对于 weight 的初始化和学习率设置显得十分重要。另外权重与梯度的 L2-norm 比 在不同 weight、layer 见变动很大。



warm-up 方法会在一开始先从小的学习率开始,然后逐步增大到大的学习率。LARS 则会对于每一层使用一个 local 学习率 [公式] :



其中 [公式] 是整体的学习率,[公式]是每一层的学习率,计算方法为:



如果加上 weight decay 参数 [公式] 后,上式可写成:



完整的 LARS 算法为:



实验结果:


这里就贴一个 resnet50 的结果吧,可以看出使用 LARS 算法可以将 batch size 扩展到 32k,另外还可以使用更廉价的芯片进行计算。使用 512 个 Intel KNL 可在 1 个小时内完成训练。512 个 KNL 按照市场价是 120 万美金,远远低于之前 Facebook 的 410 万美金 (32 台 NVIDIA DGX 工作站)。



与其它方法的对比:



参考文献:


https://arxiv.org/pdf/1709.05011.pdf


https://arxiv.org/pdf/1708.03888.pdf


本文转载自 Alex-zhai 知乎账号。


原文链接:https://zhuanlan.zhihu.com/p/81243154


2019-11-29 08:00649

评论

发布
暂无评论
发现更多内容

抖音集团也在用的数仓「降本」利器

字节跳动数据平台

大数据 数据仓库 实时数仓 抖音

Playwright:掌握Web自动化测试的新利器

测吧(北京)科技有限公司

测试

公开课 | Playwright:掌握Web自动化测试的新利器

测试人

软件测试 playwright

Meta AR 眼镜团队前负责人加入 OpenAI;visionOS 2.2 Beta 引入超宽屏投屏模式丨 RTE 开发者日报

声网

DolphinScheduler集成Arthas实现接口调用监控,提升调度任务可靠性

白鲸开源

工作流调度 Apache DolphinScheduler Arthas #监控 API 接口

4K Wallpaper mac(600多种4K壁纸素材)

Rose

项目调度管理系统(源码+文档+部署+讲解)

深圳亥时科技

数据科学在京东物流关键角色与前沿应用探索

京东科技开发者

使用SeaTunnel从InfluxDB同步数据到Doris

白鲸开源

Influxdb 数据同步 Apache SeaTunnel #开源

如何用我们的软件打造完美的项目管理方案?

天津汇柏科技有限公司

人工智能 低代码 软件定制开发

CST如何实现空间分布变化的材料设置

思茂信息

教程 cst 电磁仿真

急救管理系统

深圳亥时科技

如何在服务器端自动ban掉扫描ssh的IP

京东科技开发者

鲲鹏生态繁荣的“幕后推手”:虹信软件扛起“智改数转”大旗

Alter

信阳等保测评机构有哪些?电话多少?

行云管家

等保 等保测评 信阳

Principle Mac破解版 交互式UI原型设计工具 v6.36 激活版

Rose

Native Instruments Traktor Pro(数字DJ音乐制作平台)

Rose

2024 最新版 Java 八股文汇总(附 1100 道面试题及答案详解)

架构师之道

java面试

社交软件红包技术解密(三):微信摇一摇红包雨背后的技术细节

JackJiang

即时通讯;IM;网络编程

【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

阿里云大数据AI技术

人工智能 阿里云 EMNLP

苹果电脑壁纸素材分享:Dynamic Wallpaper 臻选4K高清壁纸

理理

震惊!AI开展数据治理将超过人工和数据平台?

奇点云

大数据 AI 数据治理 大模型

xmind思维导图 mac破解版 ,简单好用,激发创意灵感

Rose

HyperWorks练习:使用Batch Mesher 批量划分网格

智造软件

仿真软件 CAE软件 altair Hypermesh hyperworks

OpenAI 发布了新的事实性基准——SimpleQA

吴脑的键客

人工智能 openai

投诉问题处理系统(源码+文档+部署+讲解)

深圳亥时科技

面试官:Redis中大Key怎么删除?

王中阳Go

php Go 面试 后端

解压助手RAR Extractor - Unzip for mac,支持几乎所有的压缩格式

Rose

SecureCRT for mac完美激活版 附SecureCRT安装教程

Rose

京东物流-智能运输调度系统方案 荣获IF、红点国际设计大奖

京东科技开发者

并发编程/6种线程池设计图/1大线程池标准设计与执行规范/2种线程池管理设计(全面篇)

肖哥弹架构

Java 并发编程 高并发

ImageNet Training in Minutes_语言 & 开发_Alex-zhai_InfoQ精选文章