OpenAI 有 o1 大模型，QCon 有大模型推理技术实践，大模型基础设施与算力优化拿捏！

刚刚，OpenAI 震撼发布 o1 大模型！新模型可以实现复杂推理，强得可怕！！！在即将于 10 月 18-19 日召开的 QCon 上海站，月之暗面、微软亚洲研究院、商汤科技等企业的资深技术专家也将分享推理相关话题，Mooncake 分离式推理、长文本 LLMs 推理优化、异构分布式大模型推理技术……简直是会圈天菜！大模型基础设施与算力优化实践轻松拿捏！

精彩内容速递

Mooncake 分离式推理架构创新与实践

随着大型语言模型的社会影响力日益增强，相应的人工智能产品用户基数也在迅速扩大。目前，AI 产品发展的一个主要挑战是如何在有限的计算资源下，有效应对日益增长的用户需求。本议题从实际业务出发，探讨在固定集群资源的条件下，通过采用单点和分布式推理架构，提升集群处理大规模请求的能力，过程中遇到的挑战以及我们的解决策略，希望能给大家带来一些帮助和思考。

演讲提纲

1. 大规模推理挑战

优雅的集群过载
超长上下文性能挑战
故障定位与自动运维

2. 单点性能优化

混合并行策略
长上下文推理优化

3. 分离式架构 Mooncake

设计场景 —— SLO vs MFU - 分离式架构设计
集群调度策略、热点均衡
开源计划

4. 未来展望 - 硬件能力展望

更细粒度的池化分离
分离式内存系统

实践痛点

生产环境高负载下有效地过载
线下测试与线上负载的解耦

演讲亮点

经过实际生产环境大规模验证的分离式推理系统，面对真实线上负载实现性能提升
从实际业务出发，分析推理系统设计决定和关键技术

听众收益

了解分离式架构在实际生产环境中的挑战与发展趋势
了解未来硬件/算法演进方向

长文本 LLMs 推理优化：动态稀疏性算法的应用实践

Long-context LLMs Inference 的 prefilling 阶段由于 Computation bottleneck 造成的长时延 (单卡 A100，1M 8B 约 30 分钟) 给 Long-context LLMs 的应用造成了困难。而 Attention 尤其是 Long-context Attention 实际上是非常稀疏且动态的。利用这种动态稀疏性，我们将 Long-context Attention 存在的动态稀疏归纳成三种 Pattern，通过离线搜索出每个 Head 最优的稀疏 Pattern，并利用很小的 overhead 在线确定动态稀疏 index，再结合动态稀疏编译器 PIT 和 Triton 进行高效的动态稀疏 GPU 运算，产生实际加速比。我们对市面上主流的 Long-context LLMs , like LLaMA-3-1M, GLM-4-1M, Yi-200K, Phi-3-128K, Qwen2-128K 在 RULER，InfiniteBench，Needle Test，LM 等任务中进行了测试，结果显示其具有几乎相同的性能。

本次演讲将主要跟大家分享 LLMs 推理算法侧优化方法，包括量化，剪枝，模型架构优化，FFN 动态稀疏计算等方面的研究和实践。

演讲提纲

1. LLMs 推理算法侧优化方法讨论：如量化，剪枝，模型架构优化，FFN 动态稀疏计算等

2. 长文本 LLMs Inference 遇到的一些挑战

Attention 结构平方复杂度导致的 Prefilling 阶段较高的 TTFT
解码阶段 KV cache 存储压力，计算要提供一个合理 TTFT 的 API 服务理论上需要对 Attention 进行多少倍加速

3. 研究思考

优化 Long-context LLMs Inference 的相关方法，包括 training from scratch 和 training-free 两大类方法。
Attention 是动态稀疏的，Attention 的动态稀疏在空间上具有聚集性，呈现出三种不同的 pattern；

4. 解决方案

MInference、decoding 和多轮推理
实现细节，包括 GPU Kernel 实现
评测结果，包括有效性和高效性

5. 总结和未来展望

实践痛点

对于短文本场景，利用动态稀疏性可能会引入 overhead，获得的加速比较低

演讲亮点

LLMs 推理算法侧优化方法，包括量化，剪枝，模型架构优化，FFN 动态稀疏计算等方面
首个有效降低长文本大模型推理中预填充阶段成本并保持性能的解决方案
协同设计的算法和系统，能够在无需训练的情况下实现端到端加速

听众收益

了解算法侧优化 LLMs Inference 的思路和 Long-context LLMs inference 前沿研究动向和潜在的优化思路

异构分布式大模型推理技术实践

随着人工智能领域的发展，越来越复杂的大型语言模型正在被广泛应用于各个行业，这些模型的推理需求也随之大幅提升。鉴于国际供应链的持续不确定性，我们或将面临因依赖英伟达芯片而产生的潜在风险与挑战。为此，我们采用了英伟达和国产化芯片混合的异构分布式推理方案，该方案将充分发挥两种芯片的优势，确保系统的高效性和稳定性，同时减少对单一供应链的依赖，提升推理能力和自主控制能力。

推理优化已经不局限于算子层面，需要站在系统全局的角度分析并解决问题，需要设计者有全面的技术积累(分布式、算法、算子优化、量化)，需要站在异构大集群的背景下思考问题。本次演讲将分享商汤高性能计算与推理团队自研的异构分布式大模型推理系统遇到的挑战以及实现，希望能给大家带来一些帮助和思考。

演讲提纲

1. 异构分布式大模型推理系统优化

大模型推理已经演变成一项复杂的系统级别优化
适配不同芯片的分布式异构推理系统
模型快速加载，推理 POD 快速拉起

2. 多元算力芯片推理优化

推理芯片评测选型
多元算力芯片深度推理优化

3. MOE 的推理优化

MOE 的兴起
MOE 的推理优化方案
MOE + MLA 的优势

4. 大规模异构推理集群的未来展望

更大规模的异构集群的管理调度
高效的多模态融合推理

实践痛点

异构芯片之间的通信交互优化
如何快速的进行多元算力芯片选型

演讲亮点

深入剖析多样化芯片适配优化方案
MOE + MLA 的深度推理优化方案

听众收益

了解多元算力芯片技术发展趋势
了解大模型推理系统的现状和演进方向

更多精彩内容，敬请关注 QCon 上海站，锁定「大模型基础设施与算力优化」专题，届时还会有小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化、华为昇腾万卡集群大模型性能提升实践等精彩内容。

会议推荐

AI 应用开发、大模型基础设施与算力优化、出海合规与大模型安全、云原生工程、演进式架构、线上可靠性、新技术浪潮下的大前端…… 不得不说，QCon 还是太全面了。现在报名可以享受 9 折优惠，详情请联系票务经理 17310043226 咨询。

创作场景

OpenAI 有 o1 大模型，QCon 有大模型推理技术实践，大模型基础设施与算力优化拿捏！

精彩内容速递

Mooncake 分离式推理架构创新与实践

长文本 LLMs 推理优化：动态稀疏性算法的应用实践

异构分布式大模型推理技术实践