在ArchSummit深圳2019大会上,薛磊讲师做了《基于 Kubernetes 的跨云 AI 训练平台构建与展望》主题演讲,主要内容如下。
演讲简介:
问题背景:随着深度学习技术的蓬勃发展,在无人驾驶领域取得了举足轻重的进展,众多算法研发人员为深度学习的技术提供了最基础的保证,但是随着算力的不断进步与演进,亟需一套简单易用的线下算法训练实验平台供算法研发人员使用。
解决方案:为了能够解决线下训练中遇到的使用问题,我们基于 Kubernetes 研发了一套高度可扩展的跨云 AI 训练方案,使用户可以自由的在各个机房使用不同的硬件训练。由于 Kubernetes Federation 技术还没有特别成熟,以及我们的场景并不需要跨 region 的部署方式,因此简单化处理了。后面会关注 Federation V2 项目。
方案介绍:我们开发了 caffe2-operator,批量调度算法,RDMA device plugin 以及 CSI 插件,为多个集群异构硬件提供统一的管控以及差异化使用。
实施后效果:减少了用户数据同步;大大提升了硬件利用率;监控管理以及自动化程度更加强大。
演讲提纲:
阐述 AI 算法研发的大致过程
在算法研发中训练的意义以及相关技术点
实际工作中现有训练使用的问题以及难点
基于 Kubernetes 的跨云 AI 训练平台的架构
Caffe2-Operator
调度算法(批量调度、抢占、优先级)
RDMA device plugin
CSI 插件
听众受益点:
了解现有 AI 算法研发的完整路径
跨云 Kubernetes 的技术方案
Kubernetes 与 AI 场景结合需要的定制化经验
为了达到训练最高性能我们做的工作
讲师介绍:
薛磊
Momenta 基础架构技术负责人
目前在 Momenta 从事 AI 基础架构研发的工作,带领团队开发了跨云多区域异构计算 GPU 平台,该平台基于 Kubernetes 框架,结合 AI 训练的特别场景设计开发出了一套针对算法研发人员方便易用的训练平台。与此同时也是 KubeFlow 的贡献者,其中 caffe2-operator 的作者。
在此之前,作为 Hypercontainer 的早期员工,参与了大多数项目,是容器技术早期践行者。
完整演讲 PPT 下载链接:
https://archsummit.infoq.cn/2019/shenzhen/schedule
评论