在 ArchSummit 北京 2019 大会上,褚向阳讲师做了《基于 K8s 原生扩展的机器学习平台引擎 ML Engine》主题演讲,主要内容如下。
演讲简介:
CloudML 是小米人工智能部的机器学习平台,随着业务的发展和用户的增多,结合 K8s/Kubeflow 社区对于原生扩展及 ML/DL 平台发展方向,我们提出了基于 K8s 原生扩展的新一代机器学习平台引擎 ML Engine,主要思路是充分利用 K8s 原生的扩展机制,包括 CRD / Webhook / Scheduling Framework 等,将机器学习平台相关的业务模型、控制逻辑和调度策略融入到 K8s 集群中,提供更好的生命周期管理,同时满足高可用、稳定性和易维护性的云原生特性。
内容大纲:
小米 CloudML 平台简介
ML Engine 架构设计演进
ML Engine 对多框架的分布式训练支持详解
未来发展方向和具体工作
听众受益点:
了解目前机器学习平台所需要解决的问题
理解使用 K8s 的扩展功能来实现定制需求的方法和优势
重新思考云原生的机器学习平台架构
讲师介绍:
褚向阳,小米人工智能部/高级软件工程师。
2013 年毕业后加入红帽软件,吸收开源文化,接触 OpenStack 和 IaaS 平台相关技术。2015 年底开始加入容器云创业公司,参与打造容器化的 PaaS 平台,2018 年加入小米人工智能部,负责小米机器学习平台的建设,重点支持各个框架的分布式训练,订制优化 K8s 调度,努力提高平台用户体验的同时保证集群利用率。持续关注 Kubeflow 社区及性能优化相关开源项目发展。
完整演讲 PPT 下载链接:
https://archsummit.infoq.cn/2019/beijing/schedule
评论