
2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。
月之暗面系统工程师黄维啸已确认出席并发表题为《月之暗面稳定高效的 LLM 基础设施构建之道》的主题分享,重点介绍月之暗面在训推混部集群中的实践经验,探讨如何快速定位并隔离故障,实现任务的高效恢复,从而提升系统整体稳定性。另外还会分享如何在资源有限的情况下最大化利用率,避免浪费,并进一步将该思路应用于强化学习任务的训练中。

黄维啸毕业于清华大学,拥有 7 年 AI Infra 系统经验。目前在月之暗面负责 Infra 平台、系统优化相关工作。曾在旷视科技公司主导公司 AI 平台 Brain++ 从 0 到 1 的研发工作。他在本次会议的详细演讲内容如下:
演讲提纲
1. 大规模训练推理集群的挑战
大规模集群中机器故障频率高,任务失败率高
推理场景中的用户请求具备潮汐效应
强化学习场景存在资源浪费情况
2. 提高训推混部集群稳定性和资源利用率
任务检查点的高效存储和回复
故障节点快速发现和隔离,提高训练可观察性,快速找到慢节点
潮汐优先级调度,最大化提高资源利用率
3. 通过混合架构提高强化学习效率
混合 Sidecar 部署架构
训推任务高效切换
您认为,这样的技术在实践过程中有哪些痛点?
大规模集群中机器故障问题难以彻底解决,系统上需要做一些权衡
训推混部集群存在资源利用率不均衡的问题
演讲亮点
通过实际大规模集群的训推混部经验以及框架侧的优化,真实提高了整个系统的可靠性和可扩展性
听众收益
了解大模型训练和推理中遇到的稳定性问题及相关实践方案,并进一步提高资源利用率
了解在强化学习中如何高效利用显存并提高系统可扩展性
除此之外,本次大会还策划了多模态大模型及应用、AI 驱动的工程生产力、面向 AI 的研发基础设施、不被 AI 取代的工程师、大模型赋能 AIOps、云成本优化、Lakehouse 架构演进、越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。

评论