报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon 北京

  • 2025-03-19
    北京
  • 本文字数:887 字

    阅读完需:约 3 分钟

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


月之暗面系统工程师黄维啸已确认出席并发表题为《月之暗面稳定高效的 LLM 基础设施构建之道》的主题分享,重点介绍月之暗面在训推混部集群中的实践经验,探讨如何快速定位并隔离故障,实现任务的高效恢复,从而提升系统整体稳定性。另外还会分享如何在资源有限的情况下最大化利用率,避免浪费,并进一步将该思路应用于强化学习任务的训练中。



黄维啸毕业于清华大学,拥有 7 年 AI Infra 系统经验。目前在月之暗面负责 Infra 平台、系统优化相关工作。曾在旷视科技公司主导公司 AI 平台 Brain++ 从 0 到 1 的研发工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 大规模训练推理集群的挑战

  • 大规模集群中机器故障频率高,任务失败率高

  • 推理场景中的用户请求具备潮汐效应

  • 强化学习场景存在资源浪费情况

2. 提高训推混部集群稳定性和资源利用率

  • 任务检查点的高效存储和回复

  • 故障节点快速发现和隔离,提高训练可观察性,快速找到慢节点

  • 潮汐优先级调度,最大化提高资源利用率

3. 通过混合架构提高强化学习效率

  • 混合 Sidecar 部署架构

  • 训推任务高效切换


您认为,这样的技术在实践过程中有哪些痛点?

  • 大规模集群中机器故障问题难以彻底解决,系统上需要做一些权衡

  • 训推混部集群存在资源利用率不均衡的问题


演讲亮点

  • 通过实际大规模集群的训推混部经验以及框架侧的优化,真实提高了整个系统的可靠性和可扩展性


听众收益

  • 了解大模型训练和推理中遇到的稳定性问题及相关实践方案,并进一步提高资源利用率

  • 了解在强化学习中如何高效利用显存并提高系统可扩展性


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-19 10:263307

评论

发布
暂无评论

企业如何实现运维故障加速闭环的告警体系建设

嘉为蓝鲸

监控告警 告警管理

API签名及加密方式详解

幂简集成

API API签名

【YashanDB知识库】yasdb jdbc驱动集成druid连接池,业务(java)日志中有token IDENTIFIER start异常

YashanDB

yashandb 崖山数据库 崖山DB

Mistral 发布 Large 2 123B 大模型;微软发布 VALL-E 2,零样本实现声音克隆丨 RTE 开发者日报

声网

中国互联网母婴行业年度分析2024

易观分析

跨越利润瓶颈:英特尔整车方案为汽车制造商注入活力

E科讯

淘宝评论API接口:一站式实现消费者评价管理

联讯数据

网安人必须人手一份的《Linux私房教程》,GitHub星标286K!

我再BUG界嘎嘎乱杀

Linux 网络安全 安全 操作系统

一文了解元宇宙校园教育解决方案!

3DCAT实时渲染

实时云渲染 元宇宙解决方案 元宇宙教育 教育元宇宙

从模糊到清晰:AI 超分引领画质升级

七牛云

视频超分 超分 图像超分

借鉴Mico、Poppo live、Bigolive、Uplive、MIGO、IShow、Streamkar简述运营海外视频直播APP,技术开发难点以及运营方向

山东布谷科技胡月

直播平台源码 直播APP源码 海外社交APP 海外直播APP源码 聊天交友源码

IT服务管理中的人工智能应用

嘉为蓝鲸

ITSM 大模型 AI Agent 智能服务台

【YashanDB知识库】update/delete未选中行时,v$transaction视图没有事务,alter超时问题

YashanDB

yashandb 崖山数据库 崖山DB

“网络去NAT”工作的推进,对IPv6升级改造提出新要求

国科云

IT 外包可以提高企业效率和生产力吗?

Ogcloud

IT外包 IT外包公司 IT外包服务 IT外包企业 IT外包服务商

科技快讯丨智驱未来,校企共融:浪潮海岳携手山东大学软件学院开展低代码开发实训活动

inBuilder低代码平台

活动 高校 #开源

【YashanDB知识库】yasdb jdbc驱动集成BeetISQL中间件,业务(java)报autoAssignKey failure异常

YashanDB

yashandb 崖山数据库

从 NextJS SSRF 漏洞看 Host 头滥用所带来的危害

我再BUG界嘎嘎乱杀

网络安全 安全 漏洞

MCtalk·CEO对话×酷家乐:从智能涌现到应用涌现,AI在B端做了哪些事?

ToB行业头条

IT外包服务成功案例分享与优势解析

Ogcloud

IT外包 IT外包公司 IT外包服务 IT外包企业 IT外包服务商

CMeas度量体系建设:让数据驱动更科学

嘉为蓝鲸

DevOps 研发效能 研发

城商行:构建自动化运维管理体系,助力数字化转型

嘉为蓝鲸

自动化 自动化运维 运维服务

淘宝商品详情API接口开发实战

Noah

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章