浅谈Tensorflow分布式架构：ring all-reduce算法_语言 & 开发_Alex-zhai_InfoQ精选文章

浅谈Tensorflow分布式架构：ring all-reduce算法

首先还是先回顾下参数同步更新和异步更新的区别：

同步更新模式下，所有 GPU 在同一时间点与参数服务器交换、融合梯度；异步更新模式下，所有 GPU 各自独立与参数服务器通信，交换、融合梯度。

异步更新通信效率高速度快，但往往收敛不佳，因为一些速度慢的节点总会提供过时、错误的梯度方向。可通过上一篇介绍的 Stale Synchronous Parallel Parameter Server 方法缓解该问题。
同步更新通信效率低，通常训练慢，但训练收敛稳定，因为同步更新基本等同于单卡调大的 batch size 训练。
但是传统的同步更新方法（各个 gpu 卡算好梯度，求和算平均的方式），在融合梯度时，会产生巨大的通信数据量，这种通信压力往往在模型参数量很大时，显得很明显。因此我们需要找到一种方法，来解决同步更新的网络瓶颈问题。其中最具代表性的一种方法就是：ring all-reduce。

##parameter server 框架下同步更新方式，网络瓶颈定量分析

这边假设有 1 个 server 端（存放参数），10 个 worker 端（计算梯度），模型是 Deep Speech 2，参数量 300M，相当于 1.2 G 的大小的内存数据（300M * sizeof(float)）。假设网络带宽 1G bytes/s （万兆网卡），10 卡同步更新，需要 10.8 s 完成参数 Send。在单 ps 节点、有限带宽环境下，通信时间随着 GPU 数量的增加而线性增长，很难想象一个 10 卡的集群每训练一个 batch 都需要等待 10 ~ 20s 来同步参数！通信时延几乎完全覆盖掉了 GPU 并行计算节节省下的计算时间。当然也可以通过一些技巧来缓解通信压力，比如增加 server 的个数。

Ring Allreduce 框架下同步更新算法

定义 GPU 集群的拓扑结构：

每个 GPU 只从左邻居接受数据、并发送数据给右邻居。

算法主要分两步：

scatter-reduce：会逐步交换彼此的梯度并融合，最后每个 GPU 都会包含完整融合梯度的一部分。
allgather：GPU 会逐步交换彼此不完整的融合梯度，最后所有 GPU 都会得到完整的融合梯度

scatter-reduce

举例：数组求和

Step1：将数组在每个 GPU 上都分块

Step2：N-1 轮的 scatter-reduce，每一轮中，每个 GPU 将自己的一个 chunk 发给右邻居，并接收左邻居发来的 chunk，并累加。

Allgather

和 scatter-reduce 操作类似，只不过将每个 chunk 里面的操作由累加值变为替换。

通信代价分析：每个 GPU 在 Scatter Reduce 阶段，接收 N-1 次数据，N 是 GPU 数量；每个 GPU 在 allgather 阶段，接收 N-1 次数据；每个 GPU 每次发送 K/N 大小数据块，K 是总数据大小；所以，Data Transferred=2(N−1)*K/N ，随着 GPU 数量 N 增加，总传输量恒定。也就是理论上，随着 gpu 数量的增加，ring all-reduce 有线性加速能力。

下面一篇文章，将给大家介绍 tensorflow 中是如何实现 ring all-reduce 算法的。

参考文献：

https://zhuanlan.zhihu.com/p/34172340

http://andrew.gibiansky.com/

本文转载自 Alex-zhai 知乎账号。

原文链接：https://zhuanlan.zhihu.com/p/69797852

评论

发布

暂无评论

可编程网卡芯片在滴滴云网络的应用实践

云计算芯片滴滴技术

滴滴七层接入平台实践和探索

微服务运维滴滴技术七层接入

在Rust里面嵌入python代码

第 0 期架构师训练营第 8 周作业 1

基于Prometheus的微服务应用监控

易观大数据

实时数仓在滴滴的实践和落地

大数据滴滴技术数据通道服务

滴滴云平台事业群——就是稳！

招聘滴滴技术滴滴云平台事业群分享月

Redis做消息队列全攻略

架构师修行之路

redis MQ 消息队列

分布式QoS算法解析

分布式算法焱融科技分布式文件存储 QoS

滴滴ElasticSearch千万级TPS写入性能翻倍技术剖析

大数据 elasticsearch 滴滴技术

GPU虚拟机创建时间深度优化

云计算虚拟化滴滴技术

滴滴数据仓库指标体系建设实践

大数据数据仓库滴滴技术

Zeppelin SDK ：Flink 平台建设的基石

突破传统区块链如何实现病历永存

区块链电子病历信息共享

滴滴推理引擎IFX：千万规模设备下AI部署实践

人工智能学习 AI 滴滴技术 IFX

物联网的银河，华为的桨，少年的歌

合约跟单系统开发,数字货币合约跟单软件搭建

浅析LR.Net工作流引擎

.net 敏捷开发工作流

1.Flink检查点算法-15

scala 大数据 flink

【Spring注解驱动开发】AOP核心类源码解析，这是最全的一篇了！！

week12学习总结

隐私计算会成为“金融”向“数科”转型的一剂猛药？

区块链技术成为金融业务应用热点

区块链人工智能金融

数据分析之伯克森谬误：颜值和性格真成反比吗

人生数据分析数据

迭代技术方案设计文档规范

程序员架构进阶

第 0 期架构师训练营第 8 周作业2-总结

拥抱K8S系列-03-服务器部署应用和docker部署应用区别(MySQL篇)

MySQL Docker 运维

滴滴数据通道服务演进之路

大数据滴滴技术数据服务通道

c语言函数指针之回调函数

C语言与CPP编程

C语言回调函数函数函数指针

滴滴Ceph分布式存储系统优化之锁优化

云计算分布式存储 Ceph 滴滴技术

自定义线程池来实现文档转码

架构师修行之路