写点什么

OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!

  • 2024-09-13
    北京
  • 本文字数:2335 字

    阅读完需:约 8 分钟

大小:1.25M时长:07:17
OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!

刚刚,OpenAI 震撼发布 o1 大模型!新模型可以实现复杂推理,强得可怕!!!在即将于 10 月 18-19 日召开的 QCon 上海站,月之暗面、微软亚洲研究院、商汤科技等企业的资深技术专家也将分享推理相关话题,Mooncake 分离式推理、长文本 LLMs 推理优化、异构分布式大模型推理技术……简直是会圈天菜!大模型基础设施与算力优化实践轻松拿捏!

精彩内容速递

Mooncake 分离式推理架构创新与实践



随着大型语言模型的社会影响力日益增强,相应的人工智能产品用户基数也在迅速扩大。目前,AI 产品发展的一个主要挑战是如何在有限的计算资源下,有效应对日益增长的用户需求。本议题从实际业务出发,探讨在固定集群资源的条件下,通过采用单点和分布式推理架构,提升集群处理大规模请求的能力,过程中遇到的挑战以及我们的解决策略,希望能给大家带来一些帮助和思考。


演讲提纲

1. 大规模推理挑战

  • 优雅的集群过载

  • 超长上下文性能挑战

  • 故障定位与自动运维


2. 单点性能优化

  • 混合并行策略

  • 长上下文推理优化


3. 分离式架构 Mooncake

  • 设计场景 —— SLO vs MFU - 分离式架构设计

  • 集群调度策略、热点均衡

  • 开源计划


4. 未来展望 - 硬件能力展望

  • 更细粒度的池化分离

  • 分离式内存系统


实践痛点

  • 生产环境高负载下有效地过载

  • 线下测试与线上负载的解耦


演讲亮点

  • 经过实际生产环境大规模验证的分离式推理系统,面对真实线上负载实现性能提升

  • 从实际业务出发,分析推理系统设计决定和关键技术


听众收益

  • 了解分离式架构在实际生产环境中的挑战与发展趋势

  • 了解未来硬件/算法演进方向


长文本 LLMs 推理优化:动态稀疏性算法的应用实践



Long-context LLMs Inference 的 prefilling 阶段由于 Computation bottleneck 造成的长时延 (单卡 A100,1M 8B 约 30 分钟) 给 Long-context LLMs 的应用造成了困难。而 Attention 尤其是 Long-context Attention 实际上是非常稀疏且动态的。利用这种动态稀疏性,我们将 Long-context Attention 存在的动态稀疏归纳成三种 Pattern,通过离线搜索出每个 Head 最优的稀疏 Pattern,并利用很小的 overhead 在线确定动态稀疏 index,再结合动态稀疏编译器 PIT 和 Triton 进行高效的动态稀疏 GPU 运算,产生实际加速比。我们对市面上主流的 Long-context LLMs , like LLaMA-3-1M, GLM-4-1M, Yi-200K, Phi-3-128K, Qwen2-128K 在 RULER,InfiniteBench,Needle Test,LM 等任务中进行了测试,结果显示其具有几乎相同的性能。


本次演讲将主要跟大家分享 LLMs 推理算法侧优化方法,包括量化,剪枝,模型架构优化,FFN 动态稀疏计算等方面的研究和实践。


演讲提纲


1. LLMs 推理算法侧优化方法讨论:如量化,剪枝,模型架构优化,FFN 动态稀疏计算等


2. 长文本 LLMs Inference 遇到的一些挑战

  • Attention 结构平方复杂度导致的 Prefilling 阶段较高的 TTFT

  • 解码阶段 KV cache 存储压力,计算要提供一个合理 TTFT 的 API 服务理论上需要对 Attention 进行多少倍加速


3. 研究思考

  • 优化 Long-context LLMs Inference 的相关方法,包括 training from scratch 和 training-free 两大类方法。

  • Attention 是动态稀疏的,Attention 的动态稀疏在空间上具有聚集性,呈现出三种不同的 pattern;


4. 解决方案

  • MInference、decoding 和多轮推理

  • 实现细节,包括 GPU Kernel 实现

  • 评测结果,包括有效性和高效性


5. 总结和未来展望


实践痛点

  • 对于短文本场景,利用动态稀疏性可能会引入 overhead,获得的加速比较低


演讲亮点

  • LLMs 推理算法侧优化方法,包括量化,剪枝,模型架构优化,FFN 动态稀疏计算等方面

  • 首个有效降低长文本大模型推理中预填充阶段成本并保持性能的解决方案

  • 协同设计的算法和系统,能够在无需训练的情况下实现端到端加速


听众收益

  • 了解算法侧优化 LLMs Inference 的思路和 Long-context LLMs inference 前沿研究动向和潜在的优化思路


异构分布式大模型推理技术实践



随着人工智能领域的发展,越来越复杂的大型语言模型正在被广泛应用于各个行业,这些模型的推理需求也随之大幅提升。鉴于国际供应链的持续不确定性,我们或将面临因依赖英伟达芯片而产生的潜在风险与挑战。为此,我们采用了英伟达和国产化芯片混合的异构分布式推理方案,该方案将充分发挥两种芯片的优势,确保系统的高效性和稳定性,同时减少对单一供应链的依赖,提升推理能力和自主控制能力。


推理优化已经不局限于算子层面,需要站在系统全局的角度分析并解决问题,需要设计者有全面的技术积累(分布式、算法、算子优化、量化),需要站在异构大集群的背景下思考问题。本次演讲将分享商汤高性能计算与推理团队自研的异构分布式大模型推理系统遇到的挑战以及实现,希望能给大家带来一些帮助和思考。


演讲提纲

1. 异构分布式大模型推理系统优化

  • 大模型推理已经演变成一项复杂的系统级别优化

  • 适配不同芯片的分布式异构推理系统

  • 模型快速加载,推理 POD 快速拉起


2. 多元算力芯片推理优化

  • 推理芯片评测选型

  • 多元算力芯片深度推理优化


3. MOE 的推理优化

  • MOE 的兴起

  • MOE 的推理优化方案

  • MOE + MLA 的优势


4. 大规模异构推理集群的未来展望

  • 更大规模的异构集群的管理调度

  • 高效的多模态融合推理


实践痛点

  • 异构芯片之间的通信交互优化

  • 如何快速的进行多元算力芯片选型

演讲亮点

  • 深入剖析多样化芯片适配优化方案

  • MOE + MLA 的深度推理优化方案


听众收益

  • 了解多元算力芯片技术发展趋势

  • 了解大模型推理系统的现状和演进方向


更多精彩内容,敬请关注 QCon 上海站,锁定「大模型基础设施与算力优化」专题,届时还会有小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化华为昇腾万卡集群大模型性能提升实践等精彩内容。


会议推荐

AI 应用开发、大模型基础设施与算力优化、出海合规与大模型安全、云原生工程、演进式架构、线上可靠性、新技术浪潮下的大前端…… 不得不说,QCon 还是太全面了。现在报名可以享受 9 折优惠,详情请联系票务经理 17310043226 咨询。



2024-09-13 12:4710012

评论

发布
暂无评论

TiDB x CAPCOM | 为在线游戏提供灵活、可靠、可扩展的数据库服务

PingCAP

白鹭游戏引擎网络棋牌搭建步骤

北桥苏

php 游戏开发 白鹭引擎

数据采集在现代科技中的应用与挑战

来自四九城儿

浅谈一下ThinkPHP5.1实现事务嵌套的特性

北桥苏

php thinkphp 事务回滚

解决使用宝塔安装的swoole扩展,运行项目出现的3个常见问题

北桥苏

php 游戏开发 swoole

关于Appium2.0

IT蜗壳-Tango

三周年连更

websocket测试工具的环境搭建与使用

北桥苏

Jmeter webscoket

手势识别:解放双手,开启智能时代

来自四九城儿

C++ 模板

雪奈椰子

专家共话:存力一体成“东数西算”全场景利器

脑极体

算力

关于在 MySQL 排序中使用索引这件事!

江南一点雨

MySQL 数据库

大数据如何助力营销(2)用户画像

MobTech袤博科技

自学C4D,不要错过这些教程

Finovy Cloud

C++ 教程

雪奈椰子

dart-sass与node-sass的区别以及使用dart-sass可能会出现的问题

不叫猫先生

CSS SASS 三周年连更

inBuilder低代码平台开发者分享课丨变量命名要义

inBuilder低代码平台

开发者 低代码 变量

C++ 变量作用域

雪奈椰子

BitKeep逆势崛起:千万用户的信任,终点还未到来

小哈区块

ImageBind 横跨六种数据模式,用向量统一 AI 语言

Zilliz

Zilliz AIGC 向量数据库 Towhee imagebind

ihateniggers:针对Python开发者的Windows远控木马分析

墨菲安全

墨菲安全 软件供应链安全 投毒分析

mac屏幕分辨率调整用什么软件好呢?

真大的脸盆

Mac Mac 软件 屏幕分辨率调整

phpOffice实现Excel表格导入的解耦方法

北桥苏

php PhpOffice/PhpSpreadsheet

关于使用ElascticSearch的两个小技巧

北桥苏

php elasticsearch

详细版Jmeter随机参数的接口并发测试总结

北桥苏

Jmeter

PHP通过Modbus Tcp实时获取设备数据

北桥苏

物联网 PLC Modbus Tcp

代码实现RabbitMQ死信队列的创建

北桥苏

php RabbitMQ 消息队列 死信队列

大模型应用产品落地!提升理财师展业效果

中关村科金

BitKeep逆势崛起:千万用户的信任,终点还未到来

西柚子

MySQL如何做如等级/成色等特殊顺序的排序

北桥苏

MySQL sql 排序算法

敏态开发在大兴机场数字化转型中的实践

明道云

MatrixOne Layout 设计解读

MatrixOrigin

分布式数据库 MatrixOrigin MatrixOne

OpenAI 有 o1 大模型,QCon 有大模型推理技术实践,大模型基础设施与算力优化拿捏!_芯片&算力_Kitty_InfoQ精选文章