最新大模型推理优化进展：英伟达、阿里、腾讯和零一万物专家观点解读

大型模型的出现为新的经济增长注入了新的动力，但在训练和推理方面，它们也面临诸多挑战。这些挑战包括计算资源的巨大需求、并行化限制、模型体积和训练难度、数据质量、能耗和推理速度、算力不足、数据处理难题、思维模式转变以及高昂的成本。

为了向业界提供更多思考和借鉴的机会，我们在 AICon 全球人工智能开发与应用大会上，特别设置了“大型模型推理优化”专题。这一专题由阿里巴巴的研究员林伟老师担任出品人，旨在为观众带来更严谨、更有启发的演讲。我们邀请了四位老师进行分享，他们的精彩演讲将为大家带来深刻的思考和丰富的收获。

BladeLLM 大模型高性能部署框架

我们很荣幸地邀请到阿里云的高级算法专家李深作为首个分享的嘉宾。作为阿里云人工智能平台 PAI 模型系统优化的 Tech Leader，他在模型压缩和推理优化等方面拥有超过 10 年的丰富经验。在本次大模型推理优化专题演讲中，李深将重点介绍阿里云的 BladeLLM 大模型高性能部署框架。BladeLLM 高性能部署框架是基于阿里云人工智能平台 PAI 的技术积累和实践经验构建的。该框架不仅应对了大模型在线服务部署中的场景特性、资源规模和性能指标等更高更复杂的要求，而且兼容了大模型主流生态，提供了灵活易用的接口。

在演讲中，李深将深入探讨大模型服务部署优化面临的主要挑战，以及 BladeLLM 架构与核心优化技术。这些技术包括高性能算子与 AI 编译优化、模型压缩与算法优化、长上下文优化等，将为听众呈现出多层次联合的极致性能优化方案。通过他的分享，听众将了解大模型服务部署中的主要瓶颈与技术挑战，探索大模型部署优化的主要技术手段，并且深入了解大模型在线服务的规模化生产部署的实践经验。

当大模型推理遇到算力瓶颈，如何进行工程优化？

本专题出席的第二位嘉宾是零一万物的资深算法专家李谋。他曾历任阿里达摩院和华为云 EI 服务产品部技术专家，目前担任零一万物大模型在线推理服务负责人。在本次专题演讲中，他将探讨当大模型推理遇到算力瓶颈时，如何进行工程优化。随着大语言模型的持续发展，其参数量和序列长度呈指数级增长，因此面临的算力挑战愈发严峻。他将结合大模型的算力需求和模型结构，详细介绍零一万物在构建 Yi 模型在线推理服务过程中所采用的优化技术手段。通过他的分享，听众将了解到大模型推理算力瓶颈及主要工程优化手段，以及大模型应用场景的未来发展趋势。

TensorRT-LLM: Past, Present and Future

我们很荣幸地邀请到英伟达的高级技术总监杨军作为我们的专题演讲嘉宾。作为英伟达 AI 计算架构部门的负责人，他主要关注于 AI 系统全栈优化技术。在本次大模型推理优化专题演讲中，他将分享关于 TensorRT-LLM 的主题：“TensorRT-LLM: 过去、现在与未来”。

TensorRT-LLM 项目源起于对大语言模型推理优化的迫切需求。在演进迭代过程中，团队不断进行设计思考，探索最佳方案以满足日益增长的需求。当前设计方案的核心原则将是他演讲的重点，将会深入探讨该方案背后的理念和技术实现。此外，杨军还将简要介绍 TensorRT-LLM 的未来规划，展望该项目在大模型推理优化领域的发展方向和趋势。通过他的分享，听众将获得对 TensorRT-LLM 项目的深入了解，探索其在过去、现在和未来的演进路径和价值。

太极 Angel 助力生成式大模型高效落地

我们邀请的第四位演讲的嘉宾是腾讯高级工程师刘凯。作为腾讯混元大模型推理方向负责人，他在大模型压缩优化及推理加速领域拥有丰富经验，曾带领团队完成了大模型压缩 & 推理框架的从零到一的构建。在本次大模型推理优化专题演讲中，刘凯将分享关于“太极 Angel 助力生成式大模型高效落地”的主题。

随着生成式 AI 技术的迅速发展，模型规模不断增大，结构也从 Dense 向 MoE 进化。在这一背景下，大模型应用的性能、吞吐、成本成为关注焦点。他将介绍腾讯太极机器学习平台所研发的 Angel-HCF 推理框架和 Angel-SNIP 压缩框架，以支持混元文生文、文生图、文生视频、多模态等 AI 生成领域的优化，助力腾讯混元大模型在公司内全面铺开应用。

刘凯将深入探讨生成式 AI 技术的挑战和常用优化方法，重点介绍太极 Angel-HCF 大模型推理框架和太极 Angel-SNIP 大模型压缩框架。通过他的分享，听众将了解生成式 AI 的技术难点和优化手段，大模型推理加速的技术细节，以及大模型压缩的技术方法和后续发展。

发布

暂无评论

创作场景

最新大模型推理优化进展：英伟达、阿里、腾讯和零一万物专家观点解读｜AICon

BladeLLM 大模型高性能部署框架

当大模型推理遇到算力瓶颈，如何进行工程优化？

TensorRT-LLM: Past, Present and Future

太极 Angel 助力生成式大模型高效落地

评论

算云融合促发展，天翼云以领先云网算力助推数字中国建设！

【特别策划】2022年银行年报金融科技系列专题（一）

龙蜥开发者说：历时三周，记录如何从 0 到 1 构建龙蜥衍生版 | 第 18 期

安全可信| 天翼云算力调度平台通过信通院首批可信算力云服务评估！

软件测试/测试开发丨如何高效使用 Requests 做接口自动化测试

Springfox与SpringDoc——swagger如何选择（SpringDoc入门）

5月上海线下 · CSM认证周末班【提前报名特惠】“全球金牌课程”CST导师亲授

智改数转：这个制造业的必答题该如何作答？

国营单位工作4年转行网络安全，成功上岸安全开发！

5月上海线下 · CSPO认证周末班【提前报名特惠】“价值交付课程”CST导师亲授

分布式政企应用如何快速实现云原生的微服务架构改造

软件测试/测试开发丨Chrome 浏览器+Postman还能这样做接口测试？

哪里有免费大文件传输平台？通过这4个网站免费来进行大文件传输

喜讯！天翼云荣获国际AI顶会ABAW季军

再获权威认可！MIAOYUN入选中国信通院2022年度《云原生产品目录》

保证高效写入查询的情况下，如何实现 CPU 资源和磁盘 IO 的最低开销？

明道云技术路径选择及与LCDP的比较

FastAPI 快速开发 Web API 项目: 定义路径参数和查询参数

前沿成果 | 澳鹏Appen团队两篇研究论文被国际顶会收录

基于SpringBoot实现单元测试的多种情境/方法（二）

从“卖船”到提供建造“航母” 的基础设施，用友BIP有底气

数据库原理及MySQL应用 | 程序流程控制

大咖说丨云计算：数字世界的“中枢神经”

5月在线 · A-CSM认证周末班【提前报名特惠】“敏捷教练必修课程”CST导师亲授

重磅消息 | 2023年腾讯云从业者课程全面升级

如何通过Java代码将添加页码到PDF文档？

打破软件开发“不可能三角” 只需一个低代码方案

网上说低代码的一大堆，JNPF凭什么可以火？

创作场景

最新大模型推理优化进展：英伟达、阿里、腾讯和零一万物专家观点解读｜AICon

BladeLLM 大模型高性能部署框架

当大模型推理遇到算力瓶颈，如何进行工程优化？

TensorRT-LLM: Past, Present and Future

太极 Angel 助力生成式大模型高效落地

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载