写点什么

OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!

  • 2024-09-13
    北京
  • 本文字数:2335 字

    阅读完需:约 8 分钟

大小:1.25M时长:07:17
OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!

刚刚,OpenAI 震撼发布 o1 大模型!新模型可以实现复杂推理,强得可怕!!!在即将于 10 月 18-19 日召开的 QCon 上海站,月之暗面、微软亚洲研究院、商汤科技等企业的资深技术专家也将分享推理相关话题,Mooncake 分离式推理、长文本 LLMs 推理优化、异构分布式大模型推理技术……简直是会圈天菜!大模型基础设施与算力优化实践轻松拿捏!

精彩内容速递

Mooncake 分离式推理架构创新与实践



随着大型语言模型的社会影响力日益增强,相应的人工智能产品用户基数也在迅速扩大。目前,AI 产品发展的一个主要挑战是如何在有限的计算资源下,有效应对日益增长的用户需求。本议题从实际业务出发,探讨在固定集群资源的条件下,通过采用单点和分布式推理架构,提升集群处理大规模请求的能力,过程中遇到的挑战以及我们的解决策略,希望能给大家带来一些帮助和思考。


演讲提纲

1. 大规模推理挑战

  • 优雅的集群过载

  • 超长上下文性能挑战

  • 故障定位与自动运维


2. 单点性能优化

  • 混合并行策略

  • 长上下文推理优化


3. 分离式架构 Mooncake

  • 设计场景 —— SLO vs MFU - 分离式架构设计

  • 集群调度策略、热点均衡

  • 开源计划


4. 未来展望 - 硬件能力展望

  • 更细粒度的池化分离

  • 分离式内存系统


实践痛点

  • 生产环境高负载下有效地过载

  • 线下测试与线上负载的解耦


演讲亮点

  • 经过实际生产环境大规模验证的分离式推理系统,面对真实线上负载实现性能提升

  • 从实际业务出发,分析推理系统设计决定和关键技术


听众收益

  • 了解分离式架构在实际生产环境中的挑战与发展趋势

  • 了解未来硬件/算法演进方向


长文本 LLMs 推理优化:动态稀疏性算法的应用实践



Long-context LLMs Inference 的 prefilling 阶段由于 Computation bottleneck 造成的长时延 (单卡 A100,1M 8B 约 30 分钟) 给 Long-context LLMs 的应用造成了困难。而 Attention 尤其是 Long-context Attention 实际上是非常稀疏且动态的。利用这种动态稀疏性,我们将 Long-context Attention 存在的动态稀疏归纳成三种 Pattern,通过离线搜索出每个 Head 最优的稀疏 Pattern,并利用很小的 overhead 在线确定动态稀疏 index,再结合动态稀疏编译器 PIT 和 Triton 进行高效的动态稀疏 GPU 运算,产生实际加速比。我们对市面上主流的 Long-context LLMs , like LLaMA-3-1M, GLM-4-1M, Yi-200K, Phi-3-128K, Qwen2-128K 在 RULER,InfiniteBench,Needle Test,LM 等任务中进行了测试,结果显示其具有几乎相同的性能。


本次演讲将主要跟大家分享 LLMs 推理算法侧优化方法,包括量化,剪枝,模型架构优化,FFN 动态稀疏计算等方面的研究和实践。


演讲提纲


1. LLMs 推理算法侧优化方法讨论:如量化,剪枝,模型架构优化,FFN 动态稀疏计算等


2. 长文本 LLMs Inference 遇到的一些挑战

  • Attention 结构平方复杂度导致的 Prefilling 阶段较高的 TTFT

  • 解码阶段 KV cache 存储压力,计算要提供一个合理 TTFT 的 API 服务理论上需要对 Attention 进行多少倍加速


3. 研究思考

  • 优化 Long-context LLMs Inference 的相关方法,包括 training from scratch 和 training-free 两大类方法。

  • Attention 是动态稀疏的,Attention 的动态稀疏在空间上具有聚集性,呈现出三种不同的 pattern;


4. 解决方案

  • MInference、decoding 和多轮推理

  • 实现细节,包括 GPU Kernel 实现

  • 评测结果,包括有效性和高效性


5. 总结和未来展望


实践痛点

  • 对于短文本场景,利用动态稀疏性可能会引入 overhead,获得的加速比较低


演讲亮点

  • LLMs 推理算法侧优化方法,包括量化,剪枝,模型架构优化,FFN 动态稀疏计算等方面

  • 首个有效降低长文本大模型推理中预填充阶段成本并保持性能的解决方案

  • 协同设计的算法和系统,能够在无需训练的情况下实现端到端加速


听众收益

  • 了解算法侧优化 LLMs Inference 的思路和 Long-context LLMs inference 前沿研究动向和潜在的优化思路


异构分布式大模型推理技术实践



随着人工智能领域的发展,越来越复杂的大型语言模型正在被广泛应用于各个行业,这些模型的推理需求也随之大幅提升。鉴于国际供应链的持续不确定性,我们或将面临因依赖英伟达芯片而产生的潜在风险与挑战。为此,我们采用了英伟达和国产化芯片混合的异构分布式推理方案,该方案将充分发挥两种芯片的优势,确保系统的高效性和稳定性,同时减少对单一供应链的依赖,提升推理能力和自主控制能力。


推理优化已经不局限于算子层面,需要站在系统全局的角度分析并解决问题,需要设计者有全面的技术积累(分布式、算法、算子优化、量化),需要站在异构大集群的背景下思考问题。本次演讲将分享商汤高性能计算与推理团队自研的异构分布式大模型推理系统遇到的挑战以及实现,希望能给大家带来一些帮助和思考。


演讲提纲

1. 异构分布式大模型推理系统优化

  • 大模型推理已经演变成一项复杂的系统级别优化

  • 适配不同芯片的分布式异构推理系统

  • 模型快速加载,推理 POD 快速拉起


2. 多元算力芯片推理优化

  • 推理芯片评测选型

  • 多元算力芯片深度推理优化


3. MOE 的推理优化

  • MOE 的兴起

  • MOE 的推理优化方案

  • MOE + MLA 的优势


4. 大规模异构推理集群的未来展望

  • 更大规模的异构集群的管理调度

  • 高效的多模态融合推理


实践痛点

  • 异构芯片之间的通信交互优化

  • 如何快速的进行多元算力芯片选型

演讲亮点

  • 深入剖析多样化芯片适配优化方案

  • MOE + MLA 的深度推理优化方案


听众收益

  • 了解多元算力芯片技术发展趋势

  • 了解大模型推理系统的现状和演进方向


更多精彩内容,敬请关注 QCon 上海站,锁定「大模型基础设施与算力优化」专题,届时还会有小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化华为昇腾万卡集群大模型性能提升实践等精彩内容。


会议推荐

AI 应用开发、大模型基础设施与算力优化、出海合规与大模型安全、云原生工程、演进式架构、线上可靠性、新技术浪潮下的大前端…… 不得不说,QCon 还是太全面了。现在报名可以享受 9 折优惠,详情请联系票务经理 17310043226 咨询。



2024-09-13 12:4710278

评论

发布
暂无评论
发现更多内容

SymmetricDS 数据库双向同步开源软件入门

Java 程序员 后端

Android技术分享| 【自习室】自定义View代替通知动画(2)

anyRTC开发者

android 音视频 WebRTC 移动开发 自定义view

Vue学习之基础入门

Java 程序员 后端

WPF学习——依赖项属性(2)(1)

Java 程序员 后端

使用JDBC操作SAP云平台上的HANA数据库

汪子熙

JDBC Cloud SAP 11月日更

T-SQL——数据透视和逆透视

Java 程序员 后端

Tomcat性能调优

Java 程序员 后端

Vim,人类史上最好用的文本编辑器!从此以后你就是一个善良的极客!

Java 程序员 后端

SQL Server 高性能写入的一些总结

Java 程序员 后端

Tomcat 多端口,多虚拟主机配置方法

Java 程序员 后端

Ubuntu16安装Nvidia驱动(GTX1060显卡)

Java 程序员 后端

两强联手,百度智能云和中电互联打造自主可控工业互联网联合实验室

百度大脑

人工智能 百度

windows7 本地搭建ELK 收集项目运行日志

Java 程序员 后端

Worktile、Teambition与Tower项目管理软件对比

Java 程序员 后端

SSM框架示例(适合新手)(1)

Java 程序员 后端

Swagger 3

Java 程序员 后端

官宣!Apache ShardingSphere 5.0.0 正式发布

SphereEx

Java 数据库 Apache ShardingSphere

SSM框架示例(适合新手)

Java 程序员 后端

WPF学习——依赖项属性(1)

Java 程序员 后端

System

Java 程序员 后端

TCP面试相关总结

Java 程序员 后端

windows 下JDK12的安装过程

Java 程序员 后端

SQL的单表查询

Java 程序员 后端

this与super关键字(阿里巴巴面试竟然问道这个了……今天把它盘透彻了!

Java 程序员 后端

TLS加密远程连接Docker

Java 程序员 后端

volatile关键字的原理和要避免的误区

Java 程序员 后端

Volatile:内存屏障原理应该没有比这篇文章讲的更清楚了

Java 程序员 后端

智能边缘框架Baetyl,为各行业落地实践提供安全机制

百度大脑

人工智能 百度

基于Fiber的React Diff算法源码分析

贝壳大前端技术团队

Fiber React Diff

tomcat的maxThreads、acceptCount,对高并发的影响

Java 程序员 后端

Win10安装Tomcat服务器与配置环境变量

Java 程序员 后端

OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!_芯片&算力_Kitty_InfoQ精选文章