在 ArchSummit 北京 2019 大会上,王雷博讲师做了《Kubernetes 运行大数据工作负载的探索和实践》主题演讲,主要内容如下。
演讲简介:
随着 Kubernetes 的成熟,越来越多的大数据用户希望将 Spark 作业运行在 Kubernetes 之上。Spark 从 2.3 版本开始已经可以运行在 Kubernetes 之上,然而目前 Kubernetes 默认调度器对于大数据场景的支持还有很多不足,例如高并发场景,动态集群资源共享场景,亲和调度场景等。Volcano 针对于这些大数据特有场景进行了定制化开发。提供了 Pod delay creation,Queue,Zone aware scheduling 等,获得了很好的功能体验和性能提升。
在本次演讲中将介绍 Kubernetes 运行大数据工作负载的探索和实践,以及 Volcano 针对大数据工作负载的优化,并演示相应的功能和性能提升等。
内容大纲:
Kubernetes 运行大数据作业的现状
Kubernetes 运行大数据的痛点
Volcano 针对大数据的方案设计
性能方面的提升
后续的改进计划
听众受益点:
如何在社区中运营一个开源项目
如何使用 Kubernetes 来运行大数据
如何优化 Kuberentes 来支持 计算类任务
讲师介绍:
王雷博
华为 基础服务产品部/主任工程师
华为云基础服务产品部主任工程师,曾就职于 NEC,Platform computing,IBM,Oracle 等公司。拥有 10 年以上大规模分布式计算、高性能计算领域的从业经验。熟悉云原生和大数据领域的开源生态系统。专注于大规模集群资源管理,资源调度,作业调度引擎的开发。
目前主要负责 Volcano 云原生批量计算平台的研发工作。Volcano 社区致力于在 Kubernetes 上构建一个批处理调度系统,提供高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。Volcano 目前已广泛应用在大数据,AI,基因容器等服务领域。
完整演讲 PPT 下载链接:
https://archsummit.infoq.cn/2019/beijing/schedule
评论