K8s 为 AI 应用提供大规模 GPU 算力之实践_QCon_李程_InfoQ精选文章

K8s 为 AI 应用提供大规模 GPU 算力之实践

在QCon北京2019大会上，李程讲师做了《K8s 为 AI 应用提供大规模 GPU 算力之实践》主题演讲，主要内容如下。

演讲简介：

华为云 CCI 服务管理数百个 GPU 卡，为华为云 EI 服务及外部客户提供 AI 计算平台，在该过程中积累了大量面向 AI 计算的优化经验。AI 计算加速的关键是 GPU 管理，K8S 资源调度优化，面向 AI 计算框架和模型的 Job/Task 调度。通过这些优化手段可以使得 128 块 GPU 卡的线性加速比达到 0.8+。本次议题将介绍如何通过开源项目 K8S + Kata 容器搭建 AI 计算平台，最大化 GPU 及 AI 芯片算力的使用效率，并给出测试结果。最后我们也会对未来的技术改进做出展望。

听众受益

了解基于 K8S 的 AI 框架的现状；
了解大规模 GPU 在 AI 分布式训练场景下的应用；
了解 K8S 在人工智能场景下的优化思路。

讲师介绍：

李程

华为高级软件架构师

2011 年加入华为，先后参与网络软件平台、SDN、公有云容器服务等产品的架构设计工作，目前任华为 Serverless 容器服务 CCI 架构师。

完整演讲 PPT 下载链接：

https://qcon.infoq.cn/2019/beijing/schedule

评论

发布

暂无评论

茴字有四种写法，HTAP呢？

数据库 MatrixOrigin MatrixOne 矩阵起源超融合数据库

软件设计模式:桥接模式

设计模式桥接模式

linux之tree命令

在线SQL美化格式化工具

数据库的物理存储系统

数据库数据库系统

Go 实现 WebSockets：2. 如何在 Go 中创建 WebSockets 应用程序

宇宙之一粟

Go 语言 web socket 4月月更

8000字长文图解String，这次彻底搞懂了

在线时间戳计算时间差

jackson学习之四：WRAP_ROOT_VALUE（root对象）

程序员欣宸

展业四海，服务八方，明道云落地蜀陕豫鄂

2022第13周-技术分享记事

随笔工作经验

编程新手如何提高编程能力？

深度学习实战：基于卷积神经网络的猫狗识别

人工智能机器学习深度学习

一文简述：云原生应用十二要素

穿过生命散发芬芳

游戏化与驱动力 —《游戏化实战》读后感

敏捷随笔 Agile

从单机定时到多层分发

程序员小航

Java 定时任务 XXL-JOB

DIKW金字塔，AI爬到第几层了？

python中self与init怎么解释能让小白弄懂？

每位互联网人才都应该明白怎么通过XSS获取cookie

网络安全安全信息安全

[Day10]-[动态规划]最长回文子序列

LeetCode 动态规划数据结构算法

TensorFlow的常用函数

人工智能深度学习 tensorflow

MongoDB的原理、基本使用、集群和分片集群

神农写代码

生产环境Redis连接，长时间无响应被服务器断开问题

越长大越悲伤

redis TCP 连接 springboot

mass哈希娱乐游戏Dapp开发搭建

薇電13242772558

微信朋友圈的高性能复杂度

锎心😌😌😌

jupyter notebook更换皮肤

数据分析工具 jupyter

一文读完吴恩达-Machine Learning Yearning

人工智能机器学习吴恩达

自己动手写Docker系列 -- 5.4实现进入容器的namespace，exec命令

Docker Go 语言 4月月更

Python 中有什么不容易让人察觉的有趣的事实?

AI大咖说-如何有效的读论文

人工智能论文阅读李沐

微信朋友圈的高性能复杂度分析

高山觅流水

「架构实战营」