在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

ImageNet Training in Minutes

  • 2019-11-29
  • 本文字数:995 字

    阅读完需:约 3 分钟

ImageNet Training in Minutes

摘要与介绍


目前,缩短 DNN 的训练时间是一个热点,通用的方法聚焦于开发一种新的训练算法可在保证不损失精确性的前提下增大 batch 的大小,当然这些方法基本都基于数据并行的同步 SGD 进行参数更新。这其中经历了 batch_size 从 1K 到 8K,再增大到 32K 的过程。本文通过 LARS 算法使用 1000 个 cpu 在 11 分钟内完成了 100 个 epoch 的 Imagenet 训练集的训练,模型是 AlexNet,batch 设的是 32K,取的了 58.6%的 accuracy。另外在 resnet50 模型上,通过 64 个 epoch 的训练,在 14 分钟之内取得了 74.9% top-1 test 集的 accuracy 。另外,当 batch_size 大于 16K 时,通过 LARS 算法训练的准确率要高于 Facebook 的一小时训练 imagenet 那篇文章中的结果。如下图:



本文提出的算法使用了两个硬件:Intel Skylake CPU 和 Intel KNL(通用的深度学习加速器)。看到这心凉了,又是硬件在支撑。。。


计算通信比是指模型的计算代价/通信代价,一般计算通信比越高,越容易通过分布式来进行加速。如下表:ResNet50 的计算通信比要高于 AlexNet,所以 ResNet50 的分布式训练加速效果要好。另外大的 batch_size 可以减小通信代价,因为大的 batch 意味着更少轮次的迭代。



本文使用的方法是:LARS + Warmup。


下面具体介绍下 LARS 算法:


标准的 SGD 对于网络的每一层都使用相同的学习率 LR,当学习率很大时,更新的幅度会很大,容易导致发散的情况。这就使得模型在最初阶段对于 weight 的初始化和学习率设置显得十分重要。另外权重与梯度的 L2-norm 比 在不同 weight、layer 见变动很大。



warm-up 方法会在一开始先从小的学习率开始,然后逐步增大到大的学习率。LARS 则会对于每一层使用一个 local 学习率 [公式] :



其中 [公式] 是整体的学习率,[公式]是每一层的学习率,计算方法为:



如果加上 weight decay 参数 [公式] 后,上式可写成:



完整的 LARS 算法为:



实验结果:


这里就贴一个 resnet50 的结果吧,可以看出使用 LARS 算法可以将 batch size 扩展到 32k,另外还可以使用更廉价的芯片进行计算。使用 512 个 Intel KNL 可在 1 个小时内完成训练。512 个 KNL 按照市场价是 120 万美金,远远低于之前 Facebook 的 410 万美金 (32 台 NVIDIA DGX 工作站)。



与其它方法的对比:



参考文献:


https://arxiv.org/pdf/1709.05011.pdf


https://arxiv.org/pdf/1708.03888.pdf


本文转载自 Alex-zhai 知乎账号。


原文链接:https://zhuanlan.zhihu.com/p/81243154


2019-11-29 08:00915

评论

发布
暂无评论
发现更多内容

SD-WAN可以替代MPLS吗?

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SD-WAN国际专线

观赛邀请|春季超音速四强诞生,邀您见证决赛精彩时刻

RTE开发者社区

钉钉x昇腾:用AI一体机撬动企业数字资产智能化

Alter

低至1元/小时:国庆七天,30元通关《黑神话:悟空》!

轶天下事

2024云栖大会资料精选,《云原生+AI核心技术&最佳实践》PPT全量放送!

阿里巴巴云原生

阿里云 云原生

干货 | 日采100W新闻数据,如何实现新闻自动分类

八爪鱼采集器︱RPA机器人

爬虫 数据 采集

阿里巴巴API与电商创新:商品详情获取的新方法

技术冰糖葫芦

API 接口 API 测试 API 优先 pinduoduo API

第三方供应商不提供API接口?教你四步破解集成难题

谷云科技RestCloud

数据处理 API API接口 ipaas

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

智源研究院

保利物业:这样构建数智化,从容超越“内卷之困”

用友BIP

如何利用 StarRocks 加速 Iceberg 数据湖的查询效率

镜舟科技

数据湖 查询优化 iceberg StarRocks

使用Yasboot安装YashanDB的疑惑和建议

YashanDB

yashandb 崖山数据库 yasboot

淘宝商品详情数据接口:挖掘电商数据的关键通道

tbapi

淘宝商品详情数据接口 淘宝API接口 淘宝商品详情数据采集 淘宝商品详情数据分析

家居零售企业的数智人力战略升级,用友BIP超级版精选案例

用友BIP

开课啦!北大-用友CIO/CDO数智化进阶课程正式启航

用友BIP

国有企业推行末等调整和不胜任退出制度路径指引

用友BIP

实时语音交互,打造更加智能便捷的应用

HarmonyOS SDK

HarmonyOS

人工智能与伦理:如何确保AI应用中的隐私保护

天津汇柏科技有限公司

AI 伦理 隐私保护 AI 人工智能

盛事启幕 | 第三届OpenHarmony技术大会重磅官宣,邀您共绘智联未来

OpenHarmony开发者

OpenHarmony

原生鸿蒙版江苏智慧人社上架,引领全国政务应用加速鸿蒙化

最新动态

携手豆包大模型,创维酷开以AI加速OTT场景智能化

新消费日报

YashanDB Docker镜像制作

YashanDB

数据库 yashandb 崖山数据库

高额奖金、校招终面直通卡!北京农商银行2024金融科技挑战赛正式启动!

极客天地

数智化转型进行时:业界共话大模型应用创新实践

极客天地

1大成果、2个联盟、3大先锋、N个发布!超聚变全方位助力算力强国建设

业界

ImageNet Training in Minutes_语言 & 开发_Alex-zhai_InfoQ精选文章