高品质的音视频能力是怎样的? | Qcon 全球软件开发大会·上海站邀请函 了解详情
写点什么

只用了 224 秒!索尼在 ImageNet 上训练出了 ResNet-50

  • 2018-12-03
  • 本文字数:1024 字

    阅读完需:约 3 分钟

只用了224秒!索尼在ImageNet上训练出了ResNet-50

近日,索尼公司的研究人员宣布,他们在 ImageNet 上只花了 224 秒就训练出了一个 ResNet 50 架构。


得到的网络在 ImageNet 的验证集上具有 75%的 top-1 准确率。他们通过使用 NVIDIA 的 2.100 Tesla V100 Tensor Core GPU 实现了这一记录。除了这个记录,他们还使用 1.088 Tesla V100 Tensor Core GPU 获得了 90%的 GPU 伸缩效率。


将神经网络训练成多台机器有两个主要的挑战:要训练的批大小和梯度的同步。


为了减少训练神经网络的时间,可以使用一个小规模批处理来快速地将网络权重“推到正确的方向”。为了更新权重,错误会给出一个梯度,指示需要更新权重的“方向”。当使用小规模批处理时,您可以非常快速频繁地确定这个方向。


然而,小规模微批处理使得神经网络倾向于找到局部性能的最小值。索尼使用批处理大小控制解决了这个问题,这是一种最近被越来越多地使用的技术。通过对批处理尺寸的控制,逐渐增大小规模批处理的尺寸,避免局部最小的损失情况。通过观察更多的图像,神经网络对需要改进的平均误差方向有了更好的认识,而不是仅仅根据几个小样本确定误差方向。索尼将前 5 个轮次视为热身轮次,批大小较低,而之后的轮使用了较大规模的批处理。索尼还使用了混合精度训练,在 FP16 中进行向前/向后计算。


第二个问题是,在机器之间梯度的同步可能很慢。对于不同 GPU 之间的通信,需要大量的带宽。索尼的研究人员采用了 2D-Torus all reduce 算法来减少通信开销。在这种通信算法中,GPU 被放置在一个虚拟网格中。首先,梯度水平传递,然后垂直地传递到所有列,然后在最后一次传递中再次水平传递。这意味着,如果 X 是水平方向上的 GPU 数量,则需要 2(X-1) GPU 到 GPU 的操作。


索尼的研究人员使用工具神经网络库(NLL)及其 CUDA 扩展作为 DNN 培训框架。对于 GPU 之间的通信,他们使用了 NVIDIA Collective Communications Library (NCCL) version 2。


去年,多个团队试图在尽可能短的时间内训练 ResNet 50 架构。在 2017 年 9 月,InfoQ报道IBM在50分钟内培训了相同的神经网络架构。当时,IBM 实现了更高的可伸缩性效率,但只使用了 256 个 GPU。在问答中,Hillery Hunter 说批处理的大小是最具挑战性的事情之一,但是他们希望他们的方法可以扩展到更多的 GPU。在本文中,他们研究了多个 GPU 的 GPU 伸缩效率,在使用 3264 GPU 进行训练时,效率为 52.47%。


索尼公司的研究人员将他们的研究结果发表在《ImageNet/ResNet-50 Training in 224 Seconds》上,您可以在 arXiv 上找到这篇论文


2018-12-03 14:271946

评论 1 条评论

发布
暂无评论
发现更多内容

我看JAVA 之 AbstractStringBuilder & StringBuffer & StringBuilder

awen

Java 源码 jdk string

区块链能否一劳永逸地结束痛苦的选票争端?

CECBC

区块链

产品经理第五周:如何绘制流程图?

克比

翻译:《实用的 Python 编程》02_07_Objects

codists

Python

聊聊前端日志库在SaaS产品中的应用与设计

元三

大前端 SaaS

常见加密方式及Python实现

行者AI

加密

【得物技术】Web Components 初探

得物技术

Web API 得物技术 Web Component 组件

Docker安装

Sakura

Docker

未来赚钱的行业大预测

ES_her0

28天写作

收音机焊接

aaaaa

这道 Hard 到底难在哪里?大概是难在考察的全是违反“人性直觉”的内容吧 ...

宫水三叶的刷题日记

面试 LeetCode 数据结构与算法

区块链打造“红娘链”,婚姻上链让爱更“牢固”

CECBC

婚姻

第五周作业:用例流程图

克比

分页问题-Offset-based Pagination和Cursor-based Pagination

诸葛小猿

分页 Offset-based Pagination Cursor-based Pagination

如何通过事务消息保障抢购业务的分布式一致性?

阿里巴巴中间件

阿里云 云原生 电商 消息队列 分布式柔性事务‘’

正月十五吃汤圆CountDownLatch

叫练

AQS join 共享锁 CountDownLatch 多线程高并发

341 万考生,除了图书馆他们去了这样一个地方

IoT云工坊

小程序 人工智能 物联网 云平台 24小时无人自习室

Java中的String类型到底占用多大的内存空间?

冰河

Java 性能优化 string 高并发 内存空间

微信公众平台-渠道二维码开发

Geek_247dae

攀爬天梯的手机厂商,能从LG的滑落中学到什么?

脑极体

买基金赔掉一条裤衩之后,我又回来更文了

Java_若依框架教程

投资 理财 基金 茅台

Kafka 中所谓的 ‘零拷贝’ 技术到底是什么?

码农架构

Java kafka 程序员 架构 微服务

医者,智也:智慧医院破茧时,翻开转型新一页

脑极体

云主机配置微信公众号后台全记录

小jack

数字化转型提速,DataPipeline助力中石油产业大数据实时共享能力再提升

DataPipeline数见科技

数据融合

区块链与数字货币的发展到底有什么意义

CECBC

金融

无人机蜂群

冠冠

分布式应用监控与链路追踪:SkyWalking

xcbeyond

微服务 监控 Skywalking 调用链 28天写作

周末调整

IT蜗壳-Tango

七日更 28天写作 2月春节不断更 IT蜗壳

TcaplusDB服务体系揭秘

TcaplusDB

TcaplusDB Tcaplus

【LeetCode】猜字谜Java题解

Albert

算法 LeetCode 28天写作 2月春节不断更

只用了224秒!索尼在ImageNet上训练出了ResNet-50_AI_Roland Meertens_InfoQ精选文章