腾讯实时资源弹性伸缩的前沿探索与实践

2025 年 4 月 10 - 12 日，QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者，直击行业痛点，解锁可复制的经验与模式。这不仅是一场会议，更是一次对技术演进的集体探索。无论你是资深开发者，还是技术管理者，都能在这里有所收获，为下一步的技术决策提供方向。

腾讯实时计算引擎负责人刘建刚已确认出席并发表题为《腾讯实时资源弹性伸缩的前沿探索与实践》的主题分享，从腾讯的实际业务场景（实时报表、实时活动、视频直播等）出发，展开介绍腾讯实时计算团队在探索出一套垂直伸缩与水平伸缩相融合的云上资源管理方案方面所做的工作。其中，垂直伸缩可以原地变更 CPU 和内存，做到业内首家实时计算零断流；水平伸缩可以做到秒级扩缩容，配合垂直伸缩实现统一的弹性伸缩服务。为了达到高精准的预测效果，弹性伸缩还融合了 AI 模型算法，做到了智能化的自动调整。

刘建刚目前在腾讯数据平台部，负责实时计算引擎的架构设计和技术规划，落地了弹性伸缩、存算分离等核心技术，为业内首家在云上的大规模实践。早前曾就职于快手，负责实时计算的架构设计和大规模落地，主导了 2020 年快手 & 央视春晚的实时链路，实现多项 streaming runtime adaption 功能做到业界领先。再早之前在百度基础架构部任职，参与了 Matrix 在离线混部的开发工作，主要负责在线服务 Solaria 的设计和开发。他在本次会议的详细演讲内容如下：

演讲提纲
1. 背景
介绍业务核心高 SLA 要求、资源管理困难的两大痛点，业内通用的作业全局重启方式无法满足用户的需求
2. 实时计算弹性伸缩的实现
垂直伸缩，联动 Flink 内核、K8s 和 JDK，实现资源的原地变更，做到业内首家实时计算零断流，更能实现 Pod 资源的个性化配置、做到千 Pod 千面
水平伸缩，通过热更新和资源预申请实现秒级扩缩容，同时引入快照机制保障数据的 exactly-once
资源全托管，融合垂直 &水平伸缩，实现用户作业全生命周期的资源托管，包括提交、运行、升级、故障等场景，做到作业资源利用率超过 90% 的同时也保障秒级延迟
3. 模型算法的高精准预测
相比业内普遍的 Reactive 模式，通过对未来的精准预测来实现 Proactive 模式
预测算法创新性地引入模型训练，通过时间序列和特征工程的优化，将线上预测误差降到 10% 以内
异常情况下，通过健康检测、实时调控、资源抢占等方式快速恢复作业
4. 业务应用和具体收益
针对数据同步、实时报表等 long-running 作业，智能化调整节约资源超过 50%
针对广告模型等对断流极其敏感的业务，解决了资源变更带来的断流问题，SLA 做到 99.99%
全自动化的资源调整，节约人力成本 30+%
5. 经验总结和未来展望
经验：垂直伸缩的零断流有一定局限性，需要配合水平伸缩的高扩展性，才能最大程度保障用户的 SLA
展望：在准确性、实时性、鲁棒性等方面继续提升弹性伸缩的体验
您认为，这样的技术在实践过程中有哪些痛点？
垂直伸缩虽然能做到零断流，但是受限于单台机器的总资源，这时可以 Fall back 到水平伸缩（大量优化），这也是我们构建综合平台的能力之一
演讲亮点
业内首家实现实时计算零断流的垂直伸缩
业内首家利用 AI 模型预测的弹性平台
听众收益
了解腾讯实时计算的前沿技术
了解云上弹性伸缩的技术架构
为降本增效、智能运维提供解决方案

除此之外，本次大会还策划了多模态大模型及应用、AI 驱动的工程生产力、面向 AI 的研发基础设施、不被 AI 取代的工程师、大模型赋能 AIOps、云成本优化、Lakehouse 架构演进、越挫越勇的大前端等专题，届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。

目前，所有大会演讲嘉宾已结集完毕，了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。

为确保大会顺利举行，现诚邀志愿者加入，时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间：4 月 9 日 13:00-4 月 12 日 18:00，地点：北京万达嘉华酒店，报名链接：https://www.infoq.cn/form/?id=2088

创作场景

腾讯实时资源弹性伸缩的前沿探索与实践 | QCon 北京