速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

ImageNet Training in Minutes

  • 2019-11-29
  • 本文字数:995 字

    阅读完需:约 3 分钟

ImageNet Training in Minutes

摘要与介绍


目前,缩短 DNN 的训练时间是一个热点,通用的方法聚焦于开发一种新的训练算法可在保证不损失精确性的前提下增大 batch 的大小,当然这些方法基本都基于数据并行的同步 SGD 进行参数更新。这其中经历了 batch_size 从 1K 到 8K,再增大到 32K 的过程。本文通过 LARS 算法使用 1000 个 cpu 在 11 分钟内完成了 100 个 epoch 的 Imagenet 训练集的训练,模型是 AlexNet,batch 设的是 32K,取的了 58.6%的 accuracy。另外在 resnet50 模型上,通过 64 个 epoch 的训练,在 14 分钟之内取得了 74.9% top-1 test 集的 accuracy 。另外,当 batch_size 大于 16K 时,通过 LARS 算法训练的准确率要高于 Facebook 的一小时训练 imagenet 那篇文章中的结果。如下图:



本文提出的算法使用了两个硬件:Intel Skylake CPU 和 Intel KNL(通用的深度学习加速器)。看到这心凉了,又是硬件在支撑。。。


计算通信比是指模型的计算代价/通信代价,一般计算通信比越高,越容易通过分布式来进行加速。如下表:ResNet50 的计算通信比要高于 AlexNet,所以 ResNet50 的分布式训练加速效果要好。另外大的 batch_size 可以减小通信代价,因为大的 batch 意味着更少轮次的迭代。



本文使用的方法是:LARS + Warmup。


下面具体介绍下 LARS 算法:


标准的 SGD 对于网络的每一层都使用相同的学习率 LR,当学习率很大时,更新的幅度会很大,容易导致发散的情况。这就使得模型在最初阶段对于 weight 的初始化和学习率设置显得十分重要。另外权重与梯度的 L2-norm 比 在不同 weight、layer 见变动很大。



warm-up 方法会在一开始先从小的学习率开始,然后逐步增大到大的学习率。LARS 则会对于每一层使用一个 local 学习率 [公式] :



其中 [公式] 是整体的学习率,[公式]是每一层的学习率,计算方法为:



如果加上 weight decay 参数 [公式] 后,上式可写成:



完整的 LARS 算法为:



实验结果:


这里就贴一个 resnet50 的结果吧,可以看出使用 LARS 算法可以将 batch size 扩展到 32k,另外还可以使用更廉价的芯片进行计算。使用 512 个 Intel KNL 可在 1 个小时内完成训练。512 个 KNL 按照市场价是 120 万美金,远远低于之前 Facebook 的 410 万美金 (32 台 NVIDIA DGX 工作站)。



与其它方法的对比:



参考文献:


https://arxiv.org/pdf/1709.05011.pdf


https://arxiv.org/pdf/1708.03888.pdf


本文转载自 Alex-zhai 知乎账号。


原文链接:https://zhuanlan.zhihu.com/p/81243154


2019-11-29 08:00668

评论

发布
暂无评论
发现更多内容

2023-06-20:给定一个长度为N的数组arr,arr[i]表示宝石的价值 你在某天遇到X价值的宝石, X价值如果是所有剩余宝石价值中的最小值,你会将该宝石送人 X价值如果不是所有剩余宝石价值中的

福大大架构师每日一题

Go rust 算法、 福大大架构师每日一题

科创西安:秦创原·信创人才培养暨鸿蒙生态产教融合发展论坛举行

坚果

OpenHarmony 6 月 优质更文活动

【TypeScript】TS条件类型

不叫猫先生

typescript 6 月 优质更文活动

SUFS: 存储资源使用量预测服务

KaiwuDB

KaiwuDB 存储资源使用量预测

从辅助驾驶到自动驾驶道路还很远

来自四九城儿

以GaussDB举例,浅谈商业版数据库的断供风险以及国产数据库的重要性

轶天下事

用友BIP全球司库十问之大型企业如何管好资金预算?

用友BIP

全球司库

谁是远程界的天花板?2023年5款最常用的远程软件横测:ToDesk、向日葵、TeamViewer、Splashtop、AnyDesk

dvlinker

向日葵 远程软件 ToDesk TeamViewer AnyDesk

MySQL一个关于derived table的bug描述与规避

GreatSQL

人生三借、成就伟业

科技热闻

科勒亮相设计上海2023,全方位打造敢创艺术空间

科技热闻

不错的IT项目管理系统有哪些?对比2023年最受欢迎的8款项目管理工具

爱吃小舅的鱼

PingCode 项目管理软件

透过数据看世界,打开AIGC的天窗——TE产服为AIGC新商业而来

TE智库

人工智能 openai AIGC 生成式AI

Golden Gate’s (GGX) : 通过多方计算实现跨链一体化

股市老人

在AIGC魔法世界里,你是麻瓜吗?

白洞计划

AIGC

商业版数据库断供风险愈发扩大,浅谈GaussDB与国内企业的应对方式

轶天下事

华为云GaussDB:为企业提供智能、高效、安全的数据库解决方案

轶天下事

第四课 设计千万级学生管理系统考试试卷存储方案

家有两宝

架构训练营

基于STM32的智能饮水机系统设计

DS小龙哥

6 月 优质更文活动

关于AI我们唯一确定知道的是…

FN0

AIGC

向量数据库的行业标准逐渐清晰!Vector DB Bench 正式开源!

Zilliz

非结构化数据 测试工具 Milvus 向量数据库 zillizcloud

C语言编程语法—利用栈实现对后缀表达式的求解

梦笔生花

C语言 6 月 优质更文活动

谁是蔡崇信?|耶鲁大学QA

B Impact

华为云数据库GaussDB,无惧“卡脖子”,给世界一个更优选择

轶天下事

科勒携多款重磅产品惊艳亮相第27届中国国际厨卫展

科技热闻

以创新驱动增长,百度营销助力成人教育机构迎战金秋季

科技热闻

IT知识百科:什么是计算机蠕虫?

wljslmz

计算机蠕虫 6 月 优质更文活动

实现10倍提升!昇思MindSpore SPONGE套件助力核磁共振蛋白质动态结构解析加速

彭飞

昇思 昇思MindSpore

在AIGC魔法世界里,你是麻瓜吗?

脑极体

AI

Wallys/wifi 6 router ipq8072 enterprise wireless dual band /support wifi6e card

Cindy-wallys

IPQ8072

ImageNet Training in Minutes_语言 & 开发_Alex-zhai_InfoQ精选文章