本 talk 将分享如何在 IA 架构服务器集群上利用基于英特尔优化的 Tensorflow、MXNet、PyTorch 开源方案高效地搭建分布式 AI 模型训练系统,并利用其进行分布式模型训练。
演讲提纲:
- 构建基于 IA 架构的容器或虚拟化服务器集群
- 如何在 IA 架构服务器优化分布式任务性能
- 如何利用 Horovod 构建分布式训练代码
- 如何优化分布式训练超参数
听众收益:
-
了解在 IA 架构服务器集群搭建分布式 AI 模型训练的原理
-
掌握在 IA 架构服务器优化分布式性能的要点
-
获得基于 Horovod 分布式方案训练的经验分享
内容亮点:
-
现代 Xeon 处理器上的 NUMA 特性
-
VM、Docker 分布式训练环境
-
Horovod 分布式训练
评论