写点什么

腾讯实时资源弹性伸缩的前沿探索与实践 | QCon 北京

  • 2025-04-04
    北京
  • 本文字数:1613 字

    阅读完需:约 5 分钟

大小:864.04K时长:04:54
腾讯实时资源弹性伸缩的前沿探索与实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


腾讯实时计算引擎负责人刘建刚已确认出席并发表题为《腾讯实时资源弹性伸缩的前沿探索与实践》的主题分享,从腾讯的实际业务场景(实时报表、实时活动、视频直播等)出发,展开介绍腾讯实时计算团队在探索出一套垂直伸缩与水平伸缩相融合的云上资源管理方案方面所做的工作。其中,垂直伸缩可以原地变更 CPU 和内存,做到业内首家实时计算零断流;水平伸缩可以做到秒级扩缩容,配合垂直伸缩实现统一的弹性伸缩服务。为了达到高精准的预测效果,弹性伸缩还融合了 AI 模型算法,做到了智能化的自动调整。


刘建刚目前在腾讯数据平台部,负责实时计算引擎的架构设计和技术规划,落地了弹性伸缩、存算分离等核心技术,为业内首家在云上的大规模实践。早前曾就职于快手,负责实时计算的架构设计和大规模落地,主导了 2020 年快手 & 央视春晚的实时链路,实现多项 streaming runtime adaption 功能做到业界领先。再早之前在百度基础架构部任职,参与了 Matrix 在离线混部的开发工作,主要负责在线服务 Solaria 的设计和开发。他在本次会议的详细演讲内容如下:


演讲提纲

1. 背景

  • 介绍业务核心高 SLA 要求、资源管理困难的两大痛点,业内通用的作业全局重启方式无法满足用户的需求

2. 实时计算弹性伸缩的实现

  • 垂直伸缩,联动 Flink 内核、K8s 和 JDK,实现资源的原地变更,做到业内首家实时计算零断流,更能实现 Pod 资源的个性化配置、做到千 Pod 千面

  • 水平伸缩,通过热更新和资源预申请实现秒级扩缩容,同时引入快照机制保障数据的 exactly-once

  • 资源全托管,融合垂直 &水平伸缩,实现用户作业全生命周期的资源托管,包括提交、运行、升级、故障等场景,做到作业资源利用率超过 90% 的同时也保障秒级延迟

3. 模型算法的高精准预测

  • 相比业内普遍的 Reactive 模式,通过对未来的精准预测来实现 Proactive 模式

  • 预测算法创新性地引入模型训练,通过时间序列和特征工程的优化,将线上预测误差降到 10% 以内

  • 异常情况下,通过健康检测、实时调控、资源抢占等方式快速恢复作业

4. 业务应用和具体收益

  • 针对数据同步、实时报表等 long-running 作业,智能化调整节约资源超过 50%

  • 针对广告模型等对断流极其敏感的业务,解决了资源变更带来的断流问题,SLA 做到 99.99%

  • 全自动化的资源调整,节约人力成本 30+%

5. 经验总结和未来展望

  • 经验:垂直伸缩的零断流有一定局限性,需要配合水平伸缩的高扩展性,才能最大程度保障用户的 SLA

  • 展望:在准确性、实时性、鲁棒性等方面继续提升弹性伸缩的体验


您认为,这样的技术在实践过程中有哪些痛点?

垂直伸缩虽然能做到零断流,但是受限于单台机器的总资源,这时可以 Fall back 到水平伸缩(大量优化),这也是我们构建综合平台的能力之一


演讲亮点

  • 业内首家实现实时计算零断流的垂直伸缩

  • 业内首家利用 AI 模型预测的弹性平台


听众收益

  • 了解腾讯实时计算的前沿技术

  • 了解云上弹性伸缩的技术架构

  • 为降本增效、智能运维提供解决方案


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-04 14:006345

评论

发布
暂无评论

挑战30天学完Python:Day1火力全开-初识Python(含系列大纲)

MegaQi

9月月更 挑战30天学完Python

2022-09-03:n块石头放置在二维平面中的一些整数坐标点上 每个坐标点上最多只能有一块石头 如果一块石头的 同行或者同列 上有其他石头存在,那么就可以移除这块石头。 给你一个长度为 n 的数组

福大大架构师每日一题

算法 rust 福大大

数据治理的内核:元数据管理

小鲸数据

数据治理 数字化 元数据 元数据管理 元数据管理平台

数据存储与物联网

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

重学网络系列之(我的名字叫IP)

自然

网络 9月月更

小六六学Netty系列之Java NIO(一)

自然

网络 9月月更 neety

PANAMA: 共享机器学习集群的网内聚合框架

俞凡

大数据 架构 网络

《游戏机图鉴》:发展、继承、崩溃、复兴,游戏机的前世今生

图灵社区

科普 游戏机

设计模式的艺术 第十三章外观设计模式练习(为新开发的智能手机控制与管理软件提供一键备份功能。通过该功能可以将原本存储在手机中的通讯录、短信、照片、歌曲等资料一次性地全部复制到移动存储介质(如MMC卡或SD卡)中。实现过程中需要与多个已有的类进行交互)

代廉洁

设计模式的艺术

【大话 C 语言】春眠不觉晓,函数知多少?

Albert Edison

递归 C语言 函数 开发语言 9月月更

如果你是Java程序员,你会选择Cloud Studio进行云端开发,放弃IDEA吗?

wljslmz

Java Cloud Studio 9月月更

设计模式的艺术 第十二章装饰设计模式练习(开发一个数据加密模块,可以对字符串进行加密。最简单的加密算法通过对字母移位来实现,同时提供了稍复杂的逆向输出加密和更高级的求模加密。用户先用最简单的算法加密,如果觉得不够,可以使用其他算法进行二次加密和三次加密)

代廉洁

设计模式的艺术

DPDK技术学习路线总结,虚拟化专家之路

C++后台开发

后台开发 DPDK VPP OvS DPDK开发

秋招国内大厂最牛的Java面试八股文合集(全彩版),不接受反驳

退休的汤姆

Java 程序员 面经 Java工程师 秋招

小六六学Netty系列之Java BIO

自然

网络 9月月更 neety

深入思考Schema管理的几个基本问题

HackMSF

完美!华为大佬手码20w字Redis全栈小册,原来Redis性能可压榨到极致

Java全栈架构师

数据库 redis 程序员 面试 后端

在世界人工智能大会,看京东AI向产业奔涌

脑极体

C++后台开发学习路线(已多人拿下腾讯后台开发)

C++后台开发

后台开发 后端开发 C++后台开发 C++开发 腾讯后台开发

腾讯T4整合Spring+Spring MVC+MyBatis+Redis实现

退休的汤姆

Java 程序员 面经 Java工程师 秋招

C++学习------cerrno头文件的作用与源码学习

桑榆

c++ 9月月更

设计模式的艺术 第十一章组合设计模式练习(开发一个界面控件库。界面控件分为两大类:一类是单元控件,例如按钮、文本框等;另一类是容器控件,例如窗体、中间面板等。试用组合模式设计该界面控件库)

代廉洁

设计模式的艺术

首次发布!Java面试八股文让569人成功进入大厂,堪称2022最强面试八股文核心知识版!

退休的汤姆

Java 程序员 面经 秋招 Java八股文

分布式技术难学?谷歌大神首发纯手撸ZK+Dubbo笔记,网友看完直呼NB

收到请回复

Java zookeeper 架构 分布式 语言 & 开发

如何成为资深的测试专家

穿过生命散发芬芳

测试 9月月更

Java工程师丨面试必会进程线程问答

陈橘又青

Java 面试 9月月更

软件复杂性的来源与应对

源字节1号

软件开发 前端开发 后端开发 小程序开发

费时3个月啃烂了这份Redis技术笔记,我成功上岸进了字节

收到请回复

redis 架构 语言 & 开发 Java core redis 底层原理

常见的网络安全攻击及防御技术概述

阿泽🧸

网络安全 9月月更

腾讯实时资源弹性伸缩的前沿探索与实践 | QCon北京_云计算_QCon全球软件开发大会_InfoQ精选文章