写点什么

基于 K8s 原生扩展的机器学习平台引擎 ML Engine

  • 2020-02-08
  • 本文字数:620 字

    阅读完需:约 2 分钟

基于 K8s 原生扩展的机器学习平台引擎ML Engine

ArchSummit 北京 2019 大会上,褚向阳讲师做了《基于 K8s 原生扩展的机器学习平台引擎 ML Engine》主题演讲,主要内容如下。


演讲简介


CloudML 是小米人工智能部的机器学习平台,随着业务的发展和用户的增多,结合 K8s/Kubeflow 社区对于原生扩展及 ML/DL 平台发展方向,我们提出了基于 K8s 原生扩展的新一代机器学习平台引擎 ML Engine,主要思路是充分利用 K8s 原生的扩展机制,包括 CRD / Webhook / Scheduling Framework 等,将机器学习平台相关的业务模型、控制逻辑和调度策略融入到 K8s 集群中,提供更好的生命周期管理,同时满足高可用、稳定性和易维护性的云原生特性。


内容大纲


  1. 小米 CloudML 平台简介

  2. ML Engine 架构设计演进

  3. ML Engine 对多框架的分布式训练支持详解

  4. 未来发展方向和具体工作


听众受益点


  1. 了解目前机器学习平台所需要解决的问题

  2. 理解使用 K8s 的扩展功能来实现定制需求的方法和优势

  3. 重新思考云原生的机器学习平台架构


讲师介绍


褚向阳,小米人工智能部/高级软件工程师。


2013 年毕业后加入红帽软件,吸收开源文化,接触 OpenStack 和 IaaS 平台相关技术。2015 年底开始加入容器云创业公司,参与打造容器化的 PaaS 平台,2018 年加入小米人工智能部,负责小米机器学习平台的建设,重点支持各个框架的分布式训练,订制优化 K8s 调度,努力提高平台用户体验的同时保证集群利用率。持续关注 Kubeflow 社区及性能优化相关开源项目发展。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-08 18:41871

评论

发布
暂无评论
发现更多内容

一看就懂,一学就会的Raft解析

爱德华

raft PAXOS 共识算法 深入理解分布式共识算法

云图说 | MSSI之应用业务模型ABM,搭建业务与技术的数据治理桥梁

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

普通程序员要成为架构师,需要掌握哪些知识体系?

程序员小毕

Java 面试 程序人生 后端 架构师

字节跳动 Flink 大规模云原生化实践

Apache Flink

大数据 flink 实时计算

智能、高效、便捷问题定位利器 —— 应用诊断分析平台 ATP 上线

OpenAnolis小助手

内存泄露 龙蜥社区 应用诊断 ATP 异常行为

IM跨平台技术学习(七):得物基于Electron开发客服IM桌面端的技术实践

JackJiang

即时通讯 即时通讯IM

Linux 的 TCP 连接数量最大不能超过 65535?

Java你猿哥

Java Linux 后端 ssm

LED显示屏与DLP拼接屏的优缺点分析

Dylan

LED LED显示屏 户外LED显示屏

NFTScan 与 Dmail 达成合作伙伴,双方在 NFT 数据领域展开合作

NFT Research

NFT

测试流程规范如何推动落地?

老张

软件测试 目标识别 流程规范

Flink 流批一体方案在数禾的实践

Apache Flink

大数据 实时计算 flinkl

几种快速传输大文件的方式

镭速

深度访谈 NXTF_ 负责人|虚实联动才是通向未来的数字通行证

万事ONES

人工智能迎来iPhone时刻,拟人化AI进入爆发前夜

硬科技星球

超级MMM互助盘DAPP系统开发源代码(案例演示)

开发微hkkf5566

在GitHub首页3分钟被下架!爱奇艺《高并发网关设计》笔记被盗?

做梦都在改BUG

Java 负载均衡 高并发 网关设计

基础篇丨链路追踪(Tracing)其实很简单

阿里巴巴云原生

阿里云 云原生 Tracing

GPT-5紧急叫停?千名专家联名呼吁,AI技术的未来又该何去何从?

加入高科技仿生人

人工智能 AI技术 ChatGPT GPT-4

社招内推!JAVA、测开、数仓、前端均有坑

Qunar技术沙龙

互联网 工作 社招

官方文档 | 【JVM调优体系】「GC底层调优实战」XPocket为终结性能问题而生—开发指南

洛神灬殇

Java JVM 3月日更 XPocket 技术 优化体系

扫盲篇:Java中为啥一个 main 方法就能启动项目?

Java你猿哥

Java JVM ssm Java工程师

百套Web工业组态模板图库(长期更新)

2D3D前端可视化开发

组态软件 工业组态 组态图库 web组态图库 组态界面

一个有效的图表图像数据提取框架

合合技术团队

人工智能 计算机视觉 表格识别 图象识别

全国首个政企采购云平台:政采云基于 Dubbo 的混合云跨网方案实践

阿里巴巴云原生

阿里云 云原生 dubbo

专业的RAW图片处理:DxO PhotoLab 6 中文直装版

真大的脸盆

Mac Mac 软件 raw raw图片处理软件 Raw图像处理软件

YRCloudFile V6.10.0 功能新增对 NVIDIA GPUDirect 与回收站的支持

焱融科技

#高性能 #分布式文件存储 #文件存储 #全闪存储 #容器存储

云原生容器高可用运维能力应用

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

全球开源盛会!GOTC 2023 即将拉开帷幕,15 大分论坛不容错过!

kk-OSC

大会 #开源

聚焦云原生 | MIAOYUN入选开源GitOps产业联盟生态图景2.0

MIAOYUN

云计算 开源 云原生 开源社区 开源生态

Alibaba官方上线!Java并发编程全彩图册(终极版)GitHub已置顶

做梦都在改BUG

Java 并发编程 多线程 高并发

最全金融数据安全政策汇编,你应该需要它!( 附下载 )

极盾科技

数据安全

基于 K8s 原生扩展的机器学习平台引擎ML Engine_ArchSummit_褚向阳_InfoQ精选文章