写点什么

从搜索推荐到 LLM 推理的弹性调度:混合云架构下的小红书联邦集群弹性实践和探索 | QCon 北京

  • 2025-04-02
    北京
  • 本文字数:1404 字

    阅读完需:约 5 分钟

大小:771.76K时长:04:23
从搜索推荐到LLM推理的弹性调度:混合云架构下的小红书联邦集群弹性实践和探索 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小红书容器研发技术专家孙伟祥已确认出席并发表题为《从搜索推荐到LLM推理的弹性调度:混合云架构下的小红书联邦集群弹性实践和探索》的主题分享。混合云环境下资源异构化和资源碎片化一直是制约资源效能的核心问题,而联邦化的弹性调度是解决这类问题的有效手段。近一年多以来,小红书内部逐渐将在线搜索推荐这类重数据、高敏感型业务,以及最近兴起的依赖 GPU 等异构算力的大语言模型(LLM)业务纳入到统一的联邦集群弹性调度架构体系,整合多云与多集群的碎片化资源形成全局资源池,实现了跨集群及跨云的弹性调度,以及在离线服务之间的弹性混部,在资源效能方面取得了不错的结果,也很好地应对了“Tiktok 难民潮” 等突发流量洪峰场景。本次分享将深入介绍小红书内部混合云架构下的联邦集群弹性调度实践和探索。


孙伟祥目前在小红书云原生团队任容器研发专家,曾是阿里云容器团队成员。他还是 CNCF 开源孵化项目 OpenKruise Maintainer、Karmada、KubeVela 等开源项目贡献者。目前主要聚焦于多云、多集群、多场景(微服务 、大数据、AI)下的调度、弹性、应用编排的架构统一。他在本次会议的详细演讲内容如下:


演讲提纲

1. 背景与业务挑战

  • 混合云环境现状及痛点

  • 小红书混合云业务架构

  • 资源异构与资源碎片(CPU/GPU/NPU、跨云 API 差异)

  • 成本与效率的平衡(预留资源浪费 vs 突发需求响应)

  • 小红书业务场景特性

  • 搜索推荐:重数据、高并发、实时性、流量波动显著

  • LLM 场景:GPU 卡型异构、资源分散、离在线推理以及训推资源分配使用不均

2. 混合云联邦集群架构设计

  • 联邦调度核心框架

  • 统一多云、多集群接入层(联邦化的 K8s API)

  • 联邦应用编排(有状态、无状态、AI 工作负载)

  • 联邦分级调度(全局资源视图 + 调度优化)

  • 统一资源池化

  • 跨云资源纳管(自建 IDC & 云上)

3. 搜推与 LLM 场景实践与探索

  • 搜索推荐场景的跨云跨集群弹性

  • 有状态服务动态跨云、跨集群分发

  • 数据跨云多级缓存以及优化手段

  • LLM 推理场景的成本效率优化

  • 全局统一推理资源池弹性调度

  • 在离线推理混部与弹性能力探索

4. 总结和展望

  • LLM 在离线任务的深度协同

  • 统一资源池下的多类型异构体资源负载混合负载调度(GPU/CPU 混部)

  • 硬件异构性的持续算力统一

  • 异构硬件调度视角算力标准化,异构算力下的负载均衡等


听众收益

  • 了解小红书内部多云多集群架构实践

  • 分享可复制的单集群接口兼容的联邦集群方案

  • 分享多云多集群场景下一些统一调度和弹性的落地实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-02 08:001

评论

发布
暂无评论

望来路,启新程:皮阿诺2024卓越时刻

新消费日报

华为云服务器Flexus X搭建BTC虚拟币质押投资理财系统(仅测试学习)

轶天下事

使用 TiDB Vector 构建 LightRAG 知识库

TiDB 社区干货传送门

实践案例 应用适配 数据库前沿趋势

使用华为云Flexus云服务器X安装搭建crmeb多门店商城教程

轶天下事

MySQL遇到瓶颈怎么办?GaiaDB 支撑「账三丰·代账业务」服务数万家企业

Baidu AICLOUD

数据库 :MySQL 数据库

Web3软件开发需要注意的问题

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

云服务器Flexus X实例,Docker集成搭建Gitea私有仓库

轶天下事

Web3项目智能合约开发

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

管报经分,助力企业构筑管理大脑

用友智能财务

财务 会计 政策解读

华为云Flexus X服务器推荐公司、企事业单位及生产环境使用,特别注重安全和稳定性

轶天下事

什么样的MES系统能够让制造业IT部门省事省心呢?

万界星空科技

数字化 制造业 mes 万界星空科技mes 生产管理MES系统

大语言模型提示词工程

测试人

人工智能 软件测试

华为云Flexus X搭建借贷管理系统、二次开发借贷小程序 前端源码uniapp

轶天下事

WebGL软件开发注意事项

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

部署轻量级任务管理工具DooTask

轶天下事

在基于华为云Flexus云服务器X部署的CRMEB商城系统中进行二次开发

轶天下事

DApp开发的安全设计

北京木奇移动技术有限公司

区块链技术 dapp开发 软件外包公司

深度评测,华为云Flexus X实例在Sysbench性能测试中的亮眼表现

轶天下事

云服务器Flexus X实例,Docker集成搭建Jenkins CI/CD平台

轶天下事

大语言模型提示词工程

测吧(北京)科技有限公司

测试

抖音运营:解锁流量增长密码

科普小能手

数据分析 短视频 抖音引流 抖音接口

云服务器Flexus X实例,Docker集成搭建Mysql集群

轶天下事

华为云Flexus X实例全面杜绝DDoS、XSS、CSRF与SQL注入攻击,为企业部署无懈可击的跨境电商独立站

轶天下事

主从同步从Binlog切换到Ticdc,性能提升巨大

TiDB 社区干货传送门

7.x 实践

枫清科技荣膺“2024 中国大数据产业年度最具投资价值企业”

Fabarta

#人工智能 企业数智化转型 #大模型

在线CAD绘制墙体(WEB CAD开发室内设计软件)

WEB CAD SDK

阿里巴巴1688 API接口深度探索:商品详情获取与按图搜索商品(拍立淘)实战指南

代码忍者

1688API接口 关键词搜索1688API

构建高效搜索解决方案,Elasticsearch & Kibana的完美结合

轶天下事

探索 Pencils Swap 的叙事:为 DeFi 的再次爆发蓄力

西柚子

从搜索推荐到LLM推理的弹性调度:混合云架构下的小红书联邦集群弹性实践和探索 | QCon北京_架构_QCon全球软件开发大会_InfoQ精选文章