写点什么

下一代自主智算系统:超大规模集群的工程实践与挑战 | QCon 北京

  • 2025-03-19
    北京
  • 本文字数:1180 字

    阅读完需:约 4 分钟

下一代自主智算系统:超大规模集群的工程实践与挑战 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


基流科技创始人、CEO 胡效赫已确认出席并发表题为《下一代自主智算系统:超大规模集群的工程实践与挑战》的主题分享,重点探讨基于可扩展、高可用、国产化原则的下一代自主计算系统方案选型,如何通过自研通信库、拥塞控制和负载均衡优化策略、高效能算力调度、自动化集群运维、国产 AI 通信系统、算存协同广域调度等技术构建超大规模自主智算集群,解决算力基础设施卡脖子问题,为前沿大模型发展提供算力支撑。


胡效赫本科至博士均就读于清华大学,在清华就读博士期间,他已成功实现了全国首个 TB 级网络产品的落地,并在超级计算领域部署了千卡规模的模型通信方案。在高校及公司期间,完成数十万亿参数推荐大模型通信优化,首个软件定义自动化的国家级课题、14 篇网络系统方向 CCF-A 顶级论文,博士和博后期间负责及参与项目的累计经费近 2000 万元,导师和合作导师所参与公司的累积市值 500 亿美金。他在本次会议的详细演讲内容如下:


演讲提纲

1. 基础设施发展趋势

  • Scale out、Scale up 层面实现超大规模集群建设

  • 大模型基础设施全景图

  • 大规模智算集群核心痛点及工程要求

2. 超大规模自主计算集群方案

  • Galaxy 自主智算集群构建要点

  • 可扩展设计:架构设计、通信库、网络优化、并行框架等关键技术

  • 高可用设计:自研高效能算力调度、自动化算力运维平台

  • 国产化设计:基于国产 AI 通信系统实现开放通用设计、垄断方案解耦

3. 十万卡智算集群解决方案

  • 算存协同广域组网调度

  • 长距离大模型训练实践


您认为,这样的技术在实践过程中有哪些痛点?

  • 在 GPU 解耦层面,基于国产芯片的迁移适配、多元异构混合训练需要联合 GPU 厂商支持,且国产 GPU 在 Scale up 层面进展较慢,构建基于国产 GPU 的下一代自主智算系统难度较大

  • 在国产 AI 通信层面,目前基于国产交换芯片的交换机最大交换容量是 25.6T(64 个 400 G 端口),三层组网最大支持 65536 张卡,需要创新设计十万卡集群架构


演讲亮点

  • 国产全栈端到端 AI 通信系统方案:在交换机、集合通信库、拥塞控制调优、网络运维平台、长距和异构通信等方面,通过软硬件协同设计,形成全国产智算网络全栈产品和解决方案

  • 丰富的大规模集群项目实施经验:方案中的关键技术累积应用在超过多个大规模智算集群,集群规模累积超过 4 万张国际先进 GPU 卡


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-19 14:541

评论

发布
暂无评论

身份认证

escray

学习 极客时间 安全 5月日更 安全攻防技能30讲

架构实战营模块四作业

冷大大

作业 架构实战营 模块四

如何计算并测量ABAP及Java代码的环复杂度Cyclomatic complexity

汪子熙

Java SAP abap

架构训练营模块四作业

Neil43

架构训练营

第四课作业

杰语

mongodb 修改字段类型

xiaolu

mongodb

设计千万级学生管理系统的考试试卷存储方案

thewangzl

python 高级函数补充

若尘

Python编程 高级函数 5月日更

ABAP的include关键字,Java的import, C的include和C4C ABSL 的import比较

汪子熙

JavaScript nodejs CRM SAP C4C

千万级学生管理系统的考试试卷存储方案

Lane

架构师训练营模块4作业

歲月鎏金😈

架构营作业-模块4

大师兄

今天社区团购了吗?

lenka

5月日更

千万级学生管理系统的考试试卷存储方案

王瑞强

架构实战营

思考题太难了

Nydia

华仔架构训练营作业(模块四)

不听不听王八念晶

集成学习案例二 (蒸汽量预测)

容光

作业 - 设计千万级学生管理系统的考试试卷存储方案

sN0wpeak

架构实战营

如何实现一个简易版的 Spring - 如何实现 AOP(上)

mghio

Java 技术 后端 基础知识 spring aop

架构实战营模块 4 作业

梦寻解语花

架构实战营

架构实战营 模块4 作业

CR

架构实战营 模块四作业

Dylan

架构实战营

架构实战营 模块四课后作业

iProcess

架构实战营

如何查看某个用户指定时间段的ABAP开发记录

汪子熙

SAP abap SAPGUI

架构实战营 模块四作业

夏日

架构实战营

腾讯云CLS日志服务初体验

三掌柜

5月日更

使用ABAP Push Channel(APC)开发的乒乓球游戏,可双打

汪子熙

SAP abap APC

过拟合 - DAY13

Qien Z.

5月日更 过拟合

【Flutter 专题】122 图解自定义半遮挡头像 SeriesCircleProfile & CircleAvatar

阿策小和尚

5月日更 Flutter 小菜 0 基础学习 Flutter Android 小菜鸟

“三次握手,四次挥手”这么讲,保证你忘不了

三分恶

计算机网络

Rust从0到1-错误处理-panic!还是Result

rust 错误处理 result panic!

下一代自主智算系统:超大规模集群的工程实践与挑战 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章