GTLC全球技术领导力峰会·上海站,首批讲师正式上线! 了解详情
写点什么

对话 Hillery Hunter:IBM 通过有效地扩展训练缩短了神经网络的训练时间

2017 年 9 月 29 日

2017 年 8 月,IBM 宣布其打破了图识别功能的训练记录

IBM Research 能够将其 ResNet-50 神经网络布局的训练时间缩短到只有 50 分钟。在另一个名为 ResNet-101 的网络布局上,他们获得了 33.8%的准确率新记录。他们利用 256 个 GPU,在 ImageNet-22K 数据集的 750 万张图训练其神经网络。相比之下,2017 年6 月,Facebook 宣布能够在一个小时内训练他们的模型,但其使用了较小的数据集和较小的神经网络。IBM 将其成果作为一篇论文发表在arXiv 上

InfoQ 联系了 IBM Research 认知计算加速基础架构主管 Hillery Hunter,并提出了几个问题。

InfoQ:您可以先说说你们试图破解此记录时遇到的问题吗? 你们的数据集有多大,其他人在使用同样的数据集时通常会遇到什么问题?

我们在 ResNet-101 训练中使用了 750 万张图片,当处理这么多数据时,计算花费的时间是一个重大挑战。如果在单台服务器上实施此训练,需要大约 16 天才能完成。今天很少有领域能容忍这么长的计算周转时间。所以我们想解决这个时间尺度的问题,将这一大量数据集的训练缩短到一天之内。

InfoQ: 256 多个 GPU 之间的通信在此成果中起到了非常重要的作用。您能说说你们做了什么以及它们如何帮助你们训练网络吗?

我们开发了一个自定义的通信库,可帮助系统中的所有学习单元(即 GPU)以非常接近最优的速度和带宽彼此进行通信。我们的库可以融入到任何深度学习框架(如 TensorFlow,Caffe 等)中,而不是被硬编码进深度学习软件包。当各个学习单元可以快速相互通信时,你便可以更有效地将更多学习单元添加到系统中,并更快完成训练。如果通信时间不够快,你就会遇到扩展瓶颈,并且无法应用更多的服务器 / GPU 来解决训练的问题。

InfoQ:您提到了扩展效率。之前的记录是 89%,但你们却达到了 95%。扩展效率究竟是什么,它与训练时间有何关系?

扩展效率可以衡量多台服务器共同有效地解决计算问题的能力。扩展效率越高,你就可以添加更多的服务器并加快解决问题的时间。95%的扩展效率意味着你不是只使用 1 台服务器来解决问题,而是使用 100 台服务器,所以它们解决问题的速度会快 95 倍。

InfoQ:在这种情况下,您使用 256 个 GPU 提供了 95%的扩展效率。如果我使用 10000 个 GPU,那么我的网络是不是能够加快 9500 倍的速度? 换句话说:速度是线性扩展的吗?限制因素有哪些?

我们相信我们新的通信库与最优已经非常接近了,而且我们预计会继续实现更高的 GPU 加速。现在,深度学习研究界正在努力解决一个被称为“批量大小”的限制因素。这个因素目前会令 10,000 个 GPU 运行起来非常困难,但如果克服了这一问题,那么扩展更多 GPU 将成为可能。

InfoQ:除了打破记录之外,你们还将准确率从 29.8%提高到 33.8%。这纯粹是因为更高的“训练能力”,还是因为改变了网络布局?

我们并未为这项工作设计新的神经网络。我们使用了全同步训练(得益于我们的低延迟通信库),并且由于训练时间上的优势,我们对许多图片进行了可行的训练。

InfoQ:你们的模型是在哪个框架下开发的?

公告中描述了我们在 Torch(ResNet-50)和 Caffe(ResNet-101)上完成的工作。通过 PowerAI 技术预览程序,IBM 服务器团队也将我们的分布式深度学习技术提供给了 TensorFlow 的用户。

InfoQ:您能解释一下 PowerAI 平台是什么以及它能为开发人员做些什么吗?

PowerAI 是一套深度学习功能,包括框架(如 Caffe、Tensorflow、Torch、Chainer 等)、多服务器支持以及一些为受 GPU 加速的 IBM 服务器预编译和预优化过的用户工具。PowerAI 可帮助用户避免使用开源深度学习工具的麻烦、加快训练时间并提升自定义数据集的深度学习性能。任何人都可以在自己的服务器上或在 Nimbix 云端试用 PowerAI 功能。

InfoQ:你们有计划提高训练速度吗? 您认为计算时间和准确度方面的限制是什么?

我们的分布式深度学习库在扩展效率方面已经非常接近最优了,但总体而言,我们相信深度学习的训练时间和准确性还能进一步提高。我们希望深度学习不只是停留在象牙塔中,而是要走出去。大型功能目前需要几周到一个月的时间才能到达客户手中,而客户仅需要在几分钟或几秒钟内就可以看到业务成果。

Hillery Hunter 简介:

Hillery Hunter 是 IBM Tats Watson 研究中心、加速认知基础设施团队的研究员和主管,该中心位于纽约 Yorktown Heights。她对跨学科技术课题包括硅到系统架构、采用新解决方案解决传统问题等较感兴趣。其团队致力于优化硬件协同、解决机器学习和深度学习等待时间的问题。其以前的工作主要在 DRAM 主存系统和嵌入式 DRAM 领域,其曾是 IBM 服务器和大型机 DDR3 的端对端存储器电源主管,拥有丰富的相关开发经验。2010 年,她在工程前沿研讨会上被美国国家工程院评为院士,她是美国获得此殊荣的顶尖年轻工程师之一。Hillery 博士拥有伊利诺伊大学厄巴纳 - 尚佩恩分校的电气工程博士学位,并且是 IBM 科技学院成员。2017 年她被任命为 IBM 研究员。

查看英文原文: https://www.infoq.com/news/2017/09/ibm-scale-neural-network-gpus


感谢罗远航对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017 年 9 月 29 日 19:00523

评论

发布
暂无评论
发现更多内容

【Elasticsearch 技术分享】—— Elasticsearch 存储一条数据, put 过程是什么样子的?

程序员小航

Java elasticsearch 搜索 ES Lucene Elastic Search

图解 K8s 核心概念和术语

后端进阶

Docker Kubernetes 容器 云原生 k8s

USDT承兑商系统开发,USDT支付系统软件搭建

13530558032

30万奖金等你拿!Apache Flink 极客挑战赛入门指南(附Demo)

Apache Flink

flink

对于三千万攀登者来说,云是安全绳,是登山杖,是趋顶之路

脑极体

奈学:红黑树(RedBlackTree)的概述

奈学教育

AVL

调度选得好,下班回家早

易观大数据

架构师训练营第十一章作业

吴吴

《黑神话:悟空》出圈背后,国产3A游戏的技术新机

脑极体

源码解析 | 万字长文详解 Flink 中的 CopyOnWriteStateTable

Apache Flink

flink

深圳数字货币交易所开发商,币币撮合交易软件开发

13530558032

区块链钱包系统开发服务商,区块链钱包应用搭建

13530558032

java 是什么?作用是什么?

InfoQ_34a83d636158

架构师课程第十一周总结

dongge

奈学:红黑树(RedBlackTree)的概述

古月木易

架构师训练营第 11 周——练习

李伟

极客大学架构师训练营

知乎李大海与阿里云贾扬清联合直播,AI大咖眼中的行业前景

InfoQ_967a83c6d0d7

XSKY S3 Console 为对象存储系统赋能

XSKY融合存储

导致系统不可用的原因有哪些?

张磊

区块链技术可提高数据可信性和安全性

CECBC区块链专委会

区块链技术 安全性

Week11总结

张磊

合约跟单APP开发模式,合约跟单系统源码搭建

13530558032

安全&高可用架构

dony.zhang

高可用 安全 安全架构 高可用系统的架构 高可用系统的运维

SpreadJS 纯前端表格控件应用案例:在线问卷系统

Geek_Willie

合同、封条、电梯……通通上链!

CECBC区块链专委会

区块链技术 监管平台

朱嘉明:新冠肺炎疫情如何改变社会成本观念和结构

CECBC区块链专委会

社会结构 社会观念

Java二进制和位运算,这一万字准能喂饱你

YourBatman

位运算 二进制

架构师0期Week11作业2

Nan Jiang

LeetCode题解:20. 有效的括号,while循环replace,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

不可用与高可用

dongge

架构师培训 -11 安全、高可用

刘敏

DNSPod与开源应用专场

DNSPod与开源应用专场

对话Hillery Hunter:IBM通过有效地扩展训练缩短了神经网络的训练时间-InfoQ