写点什么

OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!

  • 2024-09-13
    北京
  • 本文字数:2335 字

    阅读完需:约 8 分钟

大小:1.25M时长:07:17
OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!

刚刚,OpenAI 震撼发布 o1 大模型!新模型可以实现复杂推理,强得可怕!!!在即将于 10 月 18-19 日召开的 QCon 上海站,月之暗面、微软亚洲研究院、商汤科技等企业的资深技术专家也将分享推理相关话题,Mooncake 分离式推理、长文本 LLMs 推理优化、异构分布式大模型推理技术……简直是会圈天菜!大模型基础设施与算力优化实践轻松拿捏!

精彩内容速递

Mooncake 分离式推理架构创新与实践



随着大型语言模型的社会影响力日益增强,相应的人工智能产品用户基数也在迅速扩大。目前,AI 产品发展的一个主要挑战是如何在有限的计算资源下,有效应对日益增长的用户需求。本议题从实际业务出发,探讨在固定集群资源的条件下,通过采用单点和分布式推理架构,提升集群处理大规模请求的能力,过程中遇到的挑战以及我们的解决策略,希望能给大家带来一些帮助和思考。


演讲提纲

1. 大规模推理挑战

  • 优雅的集群过载

  • 超长上下文性能挑战

  • 故障定位与自动运维


2. 单点性能优化

  • 混合并行策略

  • 长上下文推理优化


3. 分离式架构 Mooncake

  • 设计场景 —— SLO vs MFU - 分离式架构设计

  • 集群调度策略、热点均衡

  • 开源计划


4. 未来展望 - 硬件能力展望

  • 更细粒度的池化分离

  • 分离式内存系统


实践痛点

  • 生产环境高负载下有效地过载

  • 线下测试与线上负载的解耦


演讲亮点

  • 经过实际生产环境大规模验证的分离式推理系统,面对真实线上负载实现性能提升

  • 从实际业务出发,分析推理系统设计决定和关键技术


听众收益

  • 了解分离式架构在实际生产环境中的挑战与发展趋势

  • 了解未来硬件/算法演进方向


长文本 LLMs 推理优化:动态稀疏性算法的应用实践



Long-context LLMs Inference 的 prefilling 阶段由于 Computation bottleneck 造成的长时延 (单卡 A100,1M 8B 约 30 分钟) 给 Long-context LLMs 的应用造成了困难。而 Attention 尤其是 Long-context Attention 实际上是非常稀疏且动态的。利用这种动态稀疏性,我们将 Long-context Attention 存在的动态稀疏归纳成三种 Pattern,通过离线搜索出每个 Head 最优的稀疏 Pattern,并利用很小的 overhead 在线确定动态稀疏 index,再结合动态稀疏编译器 PIT 和 Triton 进行高效的动态稀疏 GPU 运算,产生实际加速比。我们对市面上主流的 Long-context LLMs , like LLaMA-3-1M, GLM-4-1M, Yi-200K, Phi-3-128K, Qwen2-128K 在 RULER,InfiniteBench,Needle Test,LM 等任务中进行了测试,结果显示其具有几乎相同的性能。


本次演讲将主要跟大家分享 LLMs 推理算法侧优化方法,包括量化,剪枝,模型架构优化,FFN 动态稀疏计算等方面的研究和实践。


演讲提纲


1. LLMs 推理算法侧优化方法讨论:如量化,剪枝,模型架构优化,FFN 动态稀疏计算等


2. 长文本 LLMs Inference 遇到的一些挑战

  • Attention 结构平方复杂度导致的 Prefilling 阶段较高的 TTFT

  • 解码阶段 KV cache 存储压力,计算要提供一个合理 TTFT 的 API 服务理论上需要对 Attention 进行多少倍加速


3. 研究思考

  • 优化 Long-context LLMs Inference 的相关方法,包括 training from scratch 和 training-free 两大类方法。

  • Attention 是动态稀疏的,Attention 的动态稀疏在空间上具有聚集性,呈现出三种不同的 pattern;


4. 解决方案

  • MInference、decoding 和多轮推理

  • 实现细节,包括 GPU Kernel 实现

  • 评测结果,包括有效性和高效性


5. 总结和未来展望


实践痛点

  • 对于短文本场景,利用动态稀疏性可能会引入 overhead,获得的加速比较低


演讲亮点

  • LLMs 推理算法侧优化方法,包括量化,剪枝,模型架构优化,FFN 动态稀疏计算等方面

  • 首个有效降低长文本大模型推理中预填充阶段成本并保持性能的解决方案

  • 协同设计的算法和系统,能够在无需训练的情况下实现端到端加速


听众收益

  • 了解算法侧优化 LLMs Inference 的思路和 Long-context LLMs inference 前沿研究动向和潜在的优化思路


异构分布式大模型推理技术实践



随着人工智能领域的发展,越来越复杂的大型语言模型正在被广泛应用于各个行业,这些模型的推理需求也随之大幅提升。鉴于国际供应链的持续不确定性,我们或将面临因依赖英伟达芯片而产生的潜在风险与挑战。为此,我们采用了英伟达和国产化芯片混合的异构分布式推理方案,该方案将充分发挥两种芯片的优势,确保系统的高效性和稳定性,同时减少对单一供应链的依赖,提升推理能力和自主控制能力。


推理优化已经不局限于算子层面,需要站在系统全局的角度分析并解决问题,需要设计者有全面的技术积累(分布式、算法、算子优化、量化),需要站在异构大集群的背景下思考问题。本次演讲将分享商汤高性能计算与推理团队自研的异构分布式大模型推理系统遇到的挑战以及实现,希望能给大家带来一些帮助和思考。


演讲提纲

1. 异构分布式大模型推理系统优化

  • 大模型推理已经演变成一项复杂的系统级别优化

  • 适配不同芯片的分布式异构推理系统

  • 模型快速加载,推理 POD 快速拉起


2. 多元算力芯片推理优化

  • 推理芯片评测选型

  • 多元算力芯片深度推理优化


3. MOE 的推理优化

  • MOE 的兴起

  • MOE 的推理优化方案

  • MOE + MLA 的优势


4. 大规模异构推理集群的未来展望

  • 更大规模的异构集群的管理调度

  • 高效的多模态融合推理


实践痛点

  • 异构芯片之间的通信交互优化

  • 如何快速的进行多元算力芯片选型

演讲亮点

  • 深入剖析多样化芯片适配优化方案

  • MOE + MLA 的深度推理优化方案


听众收益

  • 了解多元算力芯片技术发展趋势

  • 了解大模型推理系统的现状和演进方向


更多精彩内容,敬请关注 QCon 上海站,锁定「大模型基础设施与算力优化」专题,届时还会有小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化华为昇腾万卡集群大模型性能提升实践等精彩内容。


会议推荐

AI 应用开发、大模型基础设施与算力优化、出海合规与大模型安全、云原生工程、演进式架构、线上可靠性、新技术浪潮下的大前端…… 不得不说,QCon 还是太全面了。现在报名可以享受 9 折优惠,详情请联系票务经理 17310043226 咨询。



2024-09-13 12:4710219

评论

发布
暂无评论
发现更多内容

王者荣耀异地多活架构

小智

架构训练营

模板方法模式

android 程序员 移动开发

是时候丢掉 onActivityResult 了 !

android 程序员 移动开发

最新Android面试题整理

android 程序员 移动开发

来自阿里P7的兄弟给我说:赶紧掌握这项技术太吃香了

android 程序员 移动开发

深入浅出协程、线程和并发问题

android 程序员 移动开发

原来一个 Map 就能搞定注册表了

悟空聊架构

Eureka 源码剖析 注册中心 悟空聊架构 11月日更

春招总结!大厂淘汰率80%,面试难度极高

android 程序员 移动开发

来聊聊 Android Jetpack

android 程序员 移动开发

求面试别再问我HashMap原理了——史上最全源码解读,别再说你不知道HashMap 原理

android 程序员 移动开发

深入学习-Gradle-自动化构建技术(二)Groovy-筑基

android 程序员 移动开发

最后再说一次!!不要在你的App启动界面设置SingleTask-SingleInstance

android 程序员 移动开发

模块化开发一:架构搭建(1)

android 程序员 移动开发

流媒体协议之WebRTC实现p2p视频通话(二)

android 程序员 移动开发

某二次元App签名算法解析(一)

android 程序员 移动开发

是面试官放水,还是公司太缺人?这都没挂,2021的字节跳动也太好进了吧

android 程序员 移动开发

最接地气的Android面试总结心得

android 程序员 移动开发

有人说这是2021字节跳动-初级Android工程师的面经?吓到我了!我还是去搬砖吧!

android 程序员 移动开发

未来大趋势!Flutter-VS-Kotlin-跨平台开发市场的最终霸主究竟花落谁家?你看好谁呢?

android 程序员 移动开发

架构师知识分享:架构设计基础之——设计模式

android 程序员 移动开发

搞懂钩子方法和模板方法,看完这篇就够了

Tom弹架构

Java 架构 设计模式

深入理解HTTPS协议

android 程序员 移动开发

某一线互联网大厂内部超高质量Flutter+Kotlin笔记!技术与实战篇!

android 程序员 移动开发

模块化开发一:架构搭建

android 程序员 移动开发

毕业不到一年的Android 开发陷于迷茫,请求前辈指点一二

android 程序员 移动开发

新鲜出炉的Android面试题,确定不来看看吗?还有超详细的答案解析哦~

android 程序员 移动开发

构建yum库

android 程序员 移动开发

查漏补缺:十个Handler面试最常见问题,带你全面理解Handler消息机制

android 程序员 移动开发

【LeetCode】范围求和 IIJava题解

Albert

算法 LeetCode 11月日更

深入Android系统Binder-1-导读与简介(1)

android 程序员 移动开发

深入Android系统Binder-1-导读与简介

android 程序员 移动开发

OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!_芯片&算力_Kitty_InfoQ精选文章