写点什么

OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!

  • 2024-09-13
    北京
  • 本文字数:2335 字

    阅读完需:约 8 分钟

大小:1.25M时长:07:17
OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!

刚刚,OpenAI 震撼发布 o1 大模型!新模型可以实现复杂推理,强得可怕!!!在即将于 10 月 18-19 日召开的 QCon 上海站,月之暗面、微软亚洲研究院、商汤科技等企业的资深技术专家也将分享推理相关话题,Mooncake 分离式推理、长文本 LLMs 推理优化、异构分布式大模型推理技术……简直是会圈天菜!大模型基础设施与算力优化实践轻松拿捏!

精彩内容速递

Mooncake 分离式推理架构创新与实践



随着大型语言模型的社会影响力日益增强,相应的人工智能产品用户基数也在迅速扩大。目前,AI 产品发展的一个主要挑战是如何在有限的计算资源下,有效应对日益增长的用户需求。本议题从实际业务出发,探讨在固定集群资源的条件下,通过采用单点和分布式推理架构,提升集群处理大规模请求的能力,过程中遇到的挑战以及我们的解决策略,希望能给大家带来一些帮助和思考。


演讲提纲

1. 大规模推理挑战

  • 优雅的集群过载

  • 超长上下文性能挑战

  • 故障定位与自动运维


2. 单点性能优化

  • 混合并行策略

  • 长上下文推理优化


3. 分离式架构 Mooncake

  • 设计场景 —— SLO vs MFU - 分离式架构设计

  • 集群调度策略、热点均衡

  • 开源计划


4. 未来展望 - 硬件能力展望

  • 更细粒度的池化分离

  • 分离式内存系统


实践痛点

  • 生产环境高负载下有效地过载

  • 线下测试与线上负载的解耦


演讲亮点

  • 经过实际生产环境大规模验证的分离式推理系统,面对真实线上负载实现性能提升

  • 从实际业务出发,分析推理系统设计决定和关键技术


听众收益

  • 了解分离式架构在实际生产环境中的挑战与发展趋势

  • 了解未来硬件/算法演进方向


长文本 LLMs 推理优化:动态稀疏性算法的应用实践



Long-context LLMs Inference 的 prefilling 阶段由于 Computation bottleneck 造成的长时延 (单卡 A100,1M 8B 约 30 分钟) 给 Long-context LLMs 的应用造成了困难。而 Attention 尤其是 Long-context Attention 实际上是非常稀疏且动态的。利用这种动态稀疏性,我们将 Long-context Attention 存在的动态稀疏归纳成三种 Pattern,通过离线搜索出每个 Head 最优的稀疏 Pattern,并利用很小的 overhead 在线确定动态稀疏 index,再结合动态稀疏编译器 PIT 和 Triton 进行高效的动态稀疏 GPU 运算,产生实际加速比。我们对市面上主流的 Long-context LLMs , like LLaMA-3-1M, GLM-4-1M, Yi-200K, Phi-3-128K, Qwen2-128K 在 RULER,InfiniteBench,Needle Test,LM 等任务中进行了测试,结果显示其具有几乎相同的性能。


本次演讲将主要跟大家分享 LLMs 推理算法侧优化方法,包括量化,剪枝,模型架构优化,FFN 动态稀疏计算等方面的研究和实践。


演讲提纲


1. LLMs 推理算法侧优化方法讨论:如量化,剪枝,模型架构优化,FFN 动态稀疏计算等


2. 长文本 LLMs Inference 遇到的一些挑战

  • Attention 结构平方复杂度导致的 Prefilling 阶段较高的 TTFT

  • 解码阶段 KV cache 存储压力,计算要提供一个合理 TTFT 的 API 服务理论上需要对 Attention 进行多少倍加速


3. 研究思考

  • 优化 Long-context LLMs Inference 的相关方法,包括 training from scratch 和 training-free 两大类方法。

  • Attention 是动态稀疏的,Attention 的动态稀疏在空间上具有聚集性,呈现出三种不同的 pattern;


4. 解决方案

  • MInference、decoding 和多轮推理

  • 实现细节,包括 GPU Kernel 实现

  • 评测结果,包括有效性和高效性


5. 总结和未来展望


实践痛点

  • 对于短文本场景,利用动态稀疏性可能会引入 overhead,获得的加速比较低


演讲亮点

  • LLMs 推理算法侧优化方法,包括量化,剪枝,模型架构优化,FFN 动态稀疏计算等方面

  • 首个有效降低长文本大模型推理中预填充阶段成本并保持性能的解决方案

  • 协同设计的算法和系统,能够在无需训练的情况下实现端到端加速


听众收益

  • 了解算法侧优化 LLMs Inference 的思路和 Long-context LLMs inference 前沿研究动向和潜在的优化思路


异构分布式大模型推理技术实践



随着人工智能领域的发展,越来越复杂的大型语言模型正在被广泛应用于各个行业,这些模型的推理需求也随之大幅提升。鉴于国际供应链的持续不确定性,我们或将面临因依赖英伟达芯片而产生的潜在风险与挑战。为此,我们采用了英伟达和国产化芯片混合的异构分布式推理方案,该方案将充分发挥两种芯片的优势,确保系统的高效性和稳定性,同时减少对单一供应链的依赖,提升推理能力和自主控制能力。


推理优化已经不局限于算子层面,需要站在系统全局的角度分析并解决问题,需要设计者有全面的技术积累(分布式、算法、算子优化、量化),需要站在异构大集群的背景下思考问题。本次演讲将分享商汤高性能计算与推理团队自研的异构分布式大模型推理系统遇到的挑战以及实现,希望能给大家带来一些帮助和思考。


演讲提纲

1. 异构分布式大模型推理系统优化

  • 大模型推理已经演变成一项复杂的系统级别优化

  • 适配不同芯片的分布式异构推理系统

  • 模型快速加载,推理 POD 快速拉起


2. 多元算力芯片推理优化

  • 推理芯片评测选型

  • 多元算力芯片深度推理优化


3. MOE 的推理优化

  • MOE 的兴起

  • MOE 的推理优化方案

  • MOE + MLA 的优势


4. 大规模异构推理集群的未来展望

  • 更大规模的异构集群的管理调度

  • 高效的多模态融合推理


实践痛点

  • 异构芯片之间的通信交互优化

  • 如何快速的进行多元算力芯片选型

演讲亮点

  • 深入剖析多样化芯片适配优化方案

  • MOE + MLA 的深度推理优化方案


听众收益

  • 了解多元算力芯片技术发展趋势

  • 了解大模型推理系统的现状和演进方向


更多精彩内容,敬请关注 QCon 上海站,锁定「大模型基础设施与算力优化」专题,届时还会有小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化华为昇腾万卡集群大模型性能提升实践等精彩内容。


会议推荐

AI 应用开发、大模型基础设施与算力优化、出海合规与大模型安全、云原生工程、演进式架构、线上可靠性、新技术浪潮下的大前端…… 不得不说,QCon 还是太全面了。现在报名可以享受 9 折优惠,详情请联系票务经理 17310043226 咨询。



2024-09-13 12:4710303

评论

发布
暂无评论
发现更多内容

架构实战营毕业总结

俞立夫

架构实战营

阿里这份15w字Java核心面试笔记!GitHub凭借百万下载量位居榜首

Java~~~

Java 架构 面试 微服务 多线程

经济学人:若比特币价格清零会怎样?

CECBC

activiti整合在现有系统,业务绑定,流程在线设计@附源码

金陵老街

神策分析 iOS SDK 全埋点解析之元素点击与页面浏览

神策技术社区

大前端 后端 数据 埋点

终于有人把TCP协议与UDP协议给搞明白了

编程菌

Java 编程 程序员 计算机 java技术宅

python——execl写入数据2

YUKI0506

为什么你的数据总是丢?

神策技术社区

数据分析 大前端 后端 埋点

python——利用tkinter制作可视化窗体1

YUKI0506

好评如潮,PerfDog两年迭代正式启动商业化探索

WeTest

架构师训练营-毕业设计

俞立夫

云原生 | 混沌工程工具 ChaosBlade Operator Node 篇

RadonDB

数据库 云原生 混沌工程

工具 | 使用 CLion 编译调试 MySQL 8.0

RadonDB

MySQL 数据库

Fil今日价格行情?Fil未来多少钱一枚?

区块链 分布式存储 IPFS fil价格 fil行情

牛客网论坛最具争议的Java面试成神笔记,GitHub已下载量已过百万

Java~~~

Java 架构 面试 算法 架构师

“区块链”赋能智慧社区,多维度提升管理质效

旺链科技

区块链 智慧社区

金融助力补链强链 科技发挥关键作用

CECBC

数字人民币专利数激增, “区块链”领域大有可为

CECBC

当知识图谱遇上预训练语言模型

博文视点Broadview

2021 OceanBase 数据库大赛来袭!邀你改编世界,码出未来

OceanBase 数据库

数据库 oceanbase OceanBase 开源 OceanBase 社区版 OceanBase 数据库大赛

IM开发技术学习:揭秘微信朋友圈这种信息推流背后的系统设计

JackJiang

即时通讯 IM 微信朋友圈

容器化 | ClickHouse on K8s 部署篇【建议收藏】

RadonDB

数据库 Kubernetes Clickhouse

OceanBase数据库源码解读之模块结构

OceanBase 数据库

数据库 分布式数据库 oceanbase OceanBase 开源 OceanBase 社区版

云时代的到来会淘汰运维人员吗?运维工作可以一直做吗?

行云管家

云计算 运维 云服务 IT运维 云时代

还不了解 static ?年轻人,劝你耗子尾汁...

神策技术社区

数据分析 大前端 后端 埋点

2021 年 iOS 应用程序开发七种最佳语言

iOSer

Java flutter ios objective-c swift

浅析fil:fil未来价值到底在哪?

区块链 分布式存储 IPFS fil FIL价值

插上NIO翅膀,FunTester飞上天

FunTester

nio 性能测试 接口测试 测试框架 FunTester

Activity之间跳转时,生命周期的变化

W🌥

android 8月日更

容器化 | ClickHouse on K8s 基础篇

RadonDB

数据库 Kubernetes Clickhouse

八家知名大厂联合手写的Java面试手册刚上线!竟就到达巅峰?

Java~~~

Java 架构 面试 JVM 多线程

OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!_芯片&算力_Kitty_InfoQ精选文章