在ArchSummit深圳2019大会上,江帆讲师做了《字节跳动容器化场景下的性能优化实践》主题演讲,主要内容如下。
演讲简介:
字节跳动资源调度团队负责私有云平台 TCE 的底层 Kubernetes 集群的开发和维护工作。TCE 托管了头条、抖音、字节国际化业务等内部上万个在线微服务。随着这些业务的快速发展,集群规模不断扩大,机器负载越来越高,运维难度和成本问题越发显著。原生 Kubernetes 作为控制面系统,并不能很好地解决这些问题。为了提升系统可见性,我们基于 eBPF 实现了系统监控,使内核能更好地理解微服务,极大地提升了问题诊断效率。为提升资源利用率,我们通过动态超售,实现了业务实例的高密度部署,并通过优化 Kubernetes 资源模型,有效保证了延时敏感服务的 QoS。
演讲提纲:
容器化场景下的一些运维痛点问题
基于 eBPF 的系统监控,提升系统可见性
如何合理提升资源利用率节省成本
Kubernetes 资源模型深度解析和 CGroups 调优经验
听众受益点:
字节跳动大规模 Kubernetes 集群和微服务的一些运维痛点问题和解决方案
eBPF 程序在大规模生产环境下的应用
如何合理提升资源利用率,同时保证延迟敏感服务的 QoS
讲师介绍:
江帆
字节跳动 头条研发/软件工程师
TCE 是字节跳动的私有云平台,管理着业界规模领先的 Kubernetes 集群,托管了头条、抖音、字节国际化业务等内部上万个在线微服务。作为早期成员,参与了 TCE 的研发工作,拥有大规模 Kubernetes 集群的开发和维护经验,熟悉由 Kubernetes 到 Docker 再到 CGroups 的整个核心链路。目前正在参与在线、离线大规模混合部署项目,预期实现集群资源利用率的进一步提升。
完整演讲 PPT 下载链接:
https://archsummit.infoq.cn/2019/shenzhen/schedule
评论