月之暗面稳定高效的 LLM 基础设施构建之道 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章

报名参加CloudWeGo黑客松，奖金直推双丰收！了解详情 



 写点什么

登录/注册

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon北京

2025 年 4 月 10 - 12 日，QCon 全球软件开发大会将在北京召开，大会以 “智能融合，引领未来” 为主题，将汇聚各领域的技术先行者以及创新实践者，为行业发展拨云见日。

月之暗面系统工程师黄维啸已确认出席并发表题为《月之暗面稳定高效的 LLM 基础设施构建之道》的主题分享，重点介绍月之暗面在训推混部集群中的实践经验，探讨如何快速定位并隔离故障，实现任务的高效恢复，从而提升系统整体稳定性。另外还会分享如何在资源有限的情况下最大化利用率，避免浪费，并进一步将该思路应用于强化学习任务的训练中。

黄维啸毕业于清华大学，拥有 7 年 AI Infra 系统经验。目前在月之暗面负责 Infra 平台、系统优化相关工作。曾在旷视科技公司主导公司 AI 平台 Brain++ 从 0 到 1 的研发工作。他在本次会议的详细演讲内容如下：

演讲提纲
1. 大规模训练推理集群的挑战
大规模集群中机器故障频率高，任务失败率高
推理场景中的用户请求具备潮汐效应
强化学习场景存在资源浪费情况
2. 提高训推混部集群稳定性和资源利用率
任务检查点的高效存储和回复
故障节点快速发现和隔离，提高训练可观察性，快速找到慢节点
潮汐优先级调度，最大化提高资源利用率
3. 通过混合架构提高强化学习效率
混合 Sidecar 部署架构
训推任务高效切换

您认为，这样的技术在实践过程中有哪些痛点？
大规模集群中机器故障问题难以彻底解决，系统上需要做一些权衡
训推混部集群存在资源利用率不均衡的问题

演讲亮点
通过实际大规模集群的训推混部经验以及框架侧的优化，真实提高了整个系统的可靠性和可扩展性

听众收益
了解大模型训练和推理中遇到的稳定性问题及相关实践方案，并进一步提高资源利用率
了解在强化学习中如何高效利用显存并提高系统可扩展性

除此之外，本次大会还策划了多模态大模型及应用、AI 驱动的工程生产力、面向 AI 的研发基础设施、不被 AI 取代的工程师、大模型赋能 AIOps、云成本优化、Lakehouse 架构演进、越挫越勇的大前端等专题，届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 680 元，详情可扫码或联系票务经理 18514549229 咨询。

评论

发布

暂无评论

企业如何实现运维故障加速闭环的告警体系建设

监控告警告警管理

API签名及加密方式详解

【YashanDB知识库】yasdb jdbc驱动集成druid连接池，业务(java)日志中有token IDENTIFIER start异常

yashandb 崖山数据库崖山DB

Mistral 发布 Large 2 123B 大模型；微软发布 VALL-E 2，零样本实现声音克隆丨 RTE 开发者日报

中国互联网母婴行业年度分析2024

跨越利润瓶颈：英特尔整车方案为汽车制造商注入活力

淘宝评论API接口：一站式实现消费者评价管理

网安人必须人手一份的《Linux私房教程》，GitHub星标286K！

我再BUG界嘎嘎乱杀

Linux 网络安全安全操作系统

一文了解元宇宙校园教育解决方案！

3DCAT实时渲染

实时云渲染元宇宙解决方案元宇宙教育教育元宇宙

从模糊到清晰：AI 超分引领画质升级

视频超分超分图像超分

借鉴Mico、Poppo live、Bigolive、Uplive、MIGO、IShow、Streamkar简述运营海外视频直播APP，技术开发难点以及运营方向

山东布谷科技胡月

直播平台源码直播APP源码海外社交APP 海外直播APP源码聊天交友源码

IT服务管理中的人工智能应用

ITSM 大模型 AI Agent 智能服务台

【YashanDB知识库】update/delete未选中行时，v$transaction视图没有事务，alter超时问题

yashandb 崖山数据库崖山DB

“网络去NAT”工作的推进，对IPv6升级改造提出新要求

IT 外包可以提高企业效率和生产力吗？

IT外包 IT外包公司 IT外包服务 IT外包企业 IT外包服务商

科技快讯丨智驱未来，校企共融：浪潮海岳携手山东大学软件学院开展低代码开发实训活动

inBuilder低代码平台

活动高校 #开源

【YashanDB知识库】yasdb jdbc驱动集成BeetISQL中间件，业务(java)报autoAssignKey failure异常

yashandb 崖山数据库

从 NextJS SSRF 漏洞看 Host 头滥用所带来的危害

我再BUG界嘎嘎乱杀

网络安全安全漏洞

MCtalk·CEO对话×酷家乐：从智能涌现到应用涌现，AI在B端做了哪些事？

ToB行业头条

IT外包服务成功案例分享与优势解析

IT外包 IT外包公司 IT外包服务 IT外包企业 IT外包服务商

CMeas度量体系建设：让数据驱动更科学

DevOps 研发效能研发

城商行：构建自动化运维管理体系，助力数字化转型

自动化自动化运维运维服务

淘宝商品详情API接口开发实战