高品质的音视频能力是怎样的? | Qcon 全球软件开发大会·上海站邀请函 了解详情
写点什么

基于 Kubernetes 的跨云 AI 训练平台构建与展望

  • 2019-08-17
  • 本文字数:831 字

    阅读完需:约 3 分钟

基于 Kubernetes 的跨云 AI 训练平台构建与展望

ArchSummit深圳2019大会上,薛磊讲师做了《基于 Kubernetes 的跨云 AI 训练平台构建与展望》主题演讲,主要内容如下。


演讲简介


问题背景:随着深度学习技术的蓬勃发展,在无人驾驶领域取得了举足轻重的进展,众多算法研发人员为深度学习的技术提供了最基础的保证,但是随着算力的不断进步与演进,亟需一套简单易用的线下算法训练实验平台供算法研发人员使用。


解决方案:为了能够解决线下训练中遇到的使用问题,我们基于 Kubernetes 研发了一套高度可扩展的跨云 AI 训练方案,使用户可以自由的在各个机房使用不同的硬件训练。由于 Kubernetes Federation 技术还没有特别成熟,以及我们的场景并不需要跨 region 的部署方式,因此简单化处理了。后面会关注 Federation V2 项目。


方案介绍:我们开发了 caffe2-operator,批量调度算法,RDMA device plugin 以及 CSI 插件,为多个集群异构硬件提供统一的管控以及差异化使用。


实施后效果:减少了用户数据同步;大大提升了硬件利用率;监控管理以及自动化程度更加强大。


演讲提纲


  1. 阐述 AI 算法研发的大致过程

  2. 在算法研发中训练的意义以及相关技术点

  3. 实际工作中现有训练使用的问题以及难点

  4. 基于 Kubernetes 的跨云 AI 训练平台的架构

  5. Caffe2-Operator

  6. 调度算法(批量调度、抢占、优先级)

  7. RDMA device plugin

  8. CSI 插件


听众受益点


  1. 了解现有 AI 算法研发的完整路径

  2. 跨云 Kubernetes 的技术方案

  3. Kubernetes 与 AI 场景结合需要的定制化经验

  4. 为了达到训练最高性能我们做的工作


讲师介绍


薛磊


Momenta 基础架构技术负责人


目前在 Momenta 从事 AI 基础架构研发的工作,带领团队开发了跨云多区域异构计算 GPU 平台,该平台基于 Kubernetes 框架,结合 AI 训练的特别场景设计开发出了一套针对算法研发人员方便易用的训练平台。与此同时也是 KubeFlow 的贡献者,其中 caffe2-operator 的作者。


在此之前,作为 Hypercontainer 的早期员工,参与了大多数项目,是容器技术早期践行者。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/shenzhen/schedule


2019-08-17 00:004584

评论

发布
暂无评论
发现更多内容

普渡科技宣布成立“PUDU-X”创新基金,为青年工程师筑梦未来

Geek_2d6073

AIRIOT物联网低代码平台如何配置OPC UA驱动?

AIRIOT

AAAI2022 生成方向推荐(中)| 情感对话生成&释义生成

infoQ-LolitaAnn

人工智能 nlp 5月月更 NLG

极速调取客户保单,YRCloudFile 助力保险存储架构升级

焱融科技

AI 存储 NAS 数字金融

windows下C语言使用curl库访问HTTP下载文件

DS小龙哥

5月月更

ECSM隐私协议

潇潇雨歇

linux之awk使用技巧

入门小站

源码解读预告 |TiFlash DeltaTree 引擎设计及实现解析!

TiDB 社区干货传送门

【高并发】什么是ForkJoin?看这一篇就够了!

冰河

并发编程 多线程 高并发 协程 异步编程

半年面试数百场,我总结出了这份10w字Java面试复盘笔记

Java全栈架构师

Java spring 程序员 架构 面试

明天,龙蜥2位专家直播,第22届计算机系统会议等活动来了!

OpenAnolis小助手

Linux 开源 直播 内核 龙蜥技术

美团二面:为什么Redis会有哨兵?

Java全栈架构师

Java 数据库 redis 程序员 面试

5.26直播预告|《观见话题》第一期:跨境组网与加速上云的硬核解法

观测云

All in ONE!博睿数据重磅推出一体化智能可观测平台

博睿数据

博睿数据 IT运维 ONE平台

【活动报名】TiDB 社区天津站 Meetup 要来啦!

TiDB 社区干货传送门

生命科学领域下的医药研发通过什么技术?冷冻电镜?分子模拟?IND?

蓝海大脑GPU

青藤入选信通院“数据安全推进计划”成员单位

青藤云安全

数据安全 信通院

springboot集成activiti整套方案()

金陵老街

Vue ERP Activiti spring-boot

数据库连接池 -Druid 源码学习(十)

wjchenge

Druid 数据库连接池

Redis「9」主从、高可用性方案

Samson

redis 学习笔记 5月月更

JSON在线对比差异工具

入门小站

工具

宜搭5月更新:跨应用数据读写能力升级,AI组件内测开放

钉钉宜搭低代码

4月券商App行情刷新及交易体验评测报告,7家券商入围领导者象限

博睿数据

性能测试 系统运维 博睿数据 券商排行

SysAK 应用抖动诊断篇—— eBPF又立功了! | 龙蜥技术

OpenAnolis小助手

Linux 工具 内核 ebpf 龙蜥技术

【LeetCode】数组中的第K个最大元素Java题解

Albert

LeetCode 5月月更

天翼云推荐新人返好礼,最高返利千元

天翼云开发者社区

Authing 身份云招聘:增长黑客

Authing 身份云

招聘 科技

Authing 被世界经济论坛评选为 2022 技术先锋企业

Authing 身份云

身份云 科技 Idaas 科技企业

大家谈的视频体验指标,都有哪些?如何测定?

声网

视频 Qoe Dev for Dev

基于 Kubernetes 的跨云 AI 训练平台构建与展望_ArchSummit_薛磊_InfoQ精选文章