写点什么

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon

  • 2024-04-30
    北京
  • 本文字数:1729 字

    阅读完需:约 6 分钟

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon

大型模型的出现为新的经济增长注入了新的动力,但在训练和推理方面,它们也面临诸多挑战。这些挑战包括计算资源的巨大需求、并行化限制、模型体积和训练难度、数据质量、能耗和推理速度、算力不足、数据处理难题、思维模式转变以及高昂的成本。


为了向业界提供更多思考和借鉴的机会,我们在 AICon 全球人工智能开发与应用大会上,特别设置了“大型模型推理优化”专题。这一专题由阿里巴巴的研究员林伟老师担任出品人,旨在为观众带来更严谨、更有启发的演讲。我们邀请了四位老师进行分享,他们的精彩演讲将为大家带来深刻的思考和丰富的收获。

BladeLLM 大模型高性能部署框架


我们很荣幸地邀请到阿里云的高级算法专家李深作为首个分享的嘉宾。作为阿里云人工智能平台 PAI 模型系统优化的 Tech Leader,他在模型压缩和推理优化等方面拥有超过 10 年的丰富经验。在本次大模型推理优化专题演讲中,李深将重点介绍阿里云的 BladeLLM 大模型高性能部署框架。BladeLLM 高性能部署框架是基于阿里云人工智能平台 PAI 的技术积累和实践经验构建的。该框架不仅应对了大模型在线服务部署中的场景特性、资源规模和性能指标等更高更复杂的要求,而且兼容了大模型主流生态,提供了灵活易用的接口。


在演讲中,李深将深入探讨大模型服务部署优化面临的主要挑战,以及 BladeLLM 架构与核心优化技术。这些技术包括高性能算子与 AI 编译优化、模型压缩与算法优化、长上下文优化等,将为听众呈现出多层次联合的极致性能优化方案。通过他的分享,听众将了解大模型服务部署中的主要瓶颈与技术挑战,探索大模型部署优化的主要技术手段,并且深入了解大模型在线服务的规模化生产部署的实践经验。

当大模型推理遇到算力瓶颈,如何进行工程优化?


本专题出席的第二位嘉宾是零一万物的资深算法专家李谋。他曾历任阿里达摩院和华为云 EI 服务产品部技术专家,目前担任零一万物大模型在线推理服务负责人。在本次专题演讲中,他将探讨当大模型推理遇到算力瓶颈时,如何进行工程优化。随着大语言模型的持续发展,其参数量和序列长度呈指数级增长,因此面临的算力挑战愈发严峻。他将结合大模型的算力需求和模型结构,详细介绍零一万物在构建 Yi 模型在线推理服务过程中所采用的优化技术手段。通过他的分享,听众将了解到大模型推理算力瓶颈及主要工程优化手段,以及大模型应用场景的未来发展趋势。

TensorRT-LLM: Past, Present and Future


我们很荣幸地邀请到英伟达的高级技术总监杨军作为我们的专题演讲嘉宾。作为英伟达 AI 计算架构部门的负责人,他主要关注于 AI 系统全栈优化技术。在本次大模型推理优化专题演讲中,他将分享关于 TensorRT-LLM 的主题:“TensorRT-LLM: 过去、现在与未来”。


TensorRT-LLM 项目源起于对大语言模型推理优化的迫切需求。在演进迭代过程中,团队不断进行设计思考,探索最佳方案以满足日益增长的需求。当前设计方案的核心原则将是他演讲的重点,将会深入探讨该方案背后的理念和技术实现。此外,杨军还将简要介绍 TensorRT-LLM 的未来规划,展望该项目在大模型推理优化领域的发展方向和趋势。通过他的分享,听众将获得对 TensorRT-LLM 项目的深入了解,探索其在过去、现在和未来的演进路径和价值。

太极 Angel 助力生成式大模型高效落地


我们邀请的第四位演讲的嘉宾是腾讯高级工程师刘凯。作为腾讯混元大模型推理方向负责人,他在大模型压缩优化及推理加速领域拥有丰富经验,曾带领团队完成了大模型压缩 & 推理框架的从零到一的构建。在本次大模型推理优化专题演讲中,刘凯将分享关于“太极 Angel 助力生成式大模型高效落地”的主题。


随着生成式 AI 技术的迅速发展,模型规模不断增大,结构也从 Dense 向 MoE 进化。在这一背景下,大模型应用的性能、吞吐、成本成为关注焦点。他将介绍腾讯太极机器学习平台所研发的 Angel-HCF 推理框架和 Angel-SNIP 压缩框架,以支持混元文生文、文生图、文生视频、多模态等 AI 生成领域的优化,助力腾讯混元大模型在公司内全面铺开应用。


刘凯将深入探讨生成式 AI 技术的挑战和常用优化方法,重点介绍太极 Angel-HCF 大模型推理框架和太极 Angel-SNIP 大模型压缩框架。通过他的分享,听众将了解生成式 AI 的技术难点和优化手段,大模型推理加速的技术细节,以及大模型压缩的技术方法和后续发展。



2024-04-30 19:0012153

评论

发布
暂无评论
发现更多内容

网关性能大PK,Spring Cloud Gateway让人大失所望!,java教程pdf百度云下载

Java 程序员 后端

网页制作工具之------Dreamweaver界面,springmvc教程下载

Java 程序员 后端

聊聊RabbitMQ RabbitMQ相关面试题,kafka入门教程步骤

Java 程序员 后端

聊聊多线程(一)线程的基础,linux集群架构师

Java 程序员 后端

精通springcloud:服务发现,Eureka API,java技术上难以解决的问题

Java 程序员 后端

系统性能典型案例分析:高性能队列Disruptor,一文深入理解

Java 程序员 后端

网络编程六-网络编程相关面试题汇总,nginx运行原理

Java 程序员 后端

聊聊MyBatis的历史,mysql原理详解

Java 程序员 后端

聊聊MySQL主从复制的几种复制方式,上岸蚂蚁金服

Java 程序员 后端

老夫面试两个月真实经历:面试了20家大厂之后,发现这样介绍项目经验

Java 程序员 后端

线上环境大规模RocketMQ集群不停机优雅升级实践,面试字节跳动Java工程师该怎么准备

Java 程序员 后端

老生常谈:MySQL高可用,java泛型原理

Java 程序员 后端

聊聊多线程(四)线程安全之AtomicInteger类,最全面试考点与面试技巧

Java 程序员 后端

网络协议从入门到底层原理(5)传输层,java编程项目实例教程

Java 程序员 后端

系统性能百倍提升典型案例分析:高性能队列Disruptor,linux服务器架构师

Java 程序员 后端

终于彻底搞清楚了 MySQL spin-lock 之一次CPU问题定位过程总结

Java 程序员 后端

绝杀!3位阿里大牛发布这份800页MySQL性能优化法则笔记

Java 程序员 后端

缓存穿透及解决方案(干货篇),java基础入门第二版第二章答案

Java 程序员 后端

网络协议从入门到底层原理(11)网络爬虫,线程池底层实现原理

Java 程序员 后端

美团二面:聊聊线程池设计与原理,由表及里趣味解析,linux操作系统实用教程课后答案

Java 程序员 后端

精雕细琢!阿里大师53天悉心打磨出来的MyBatis+设计模式架构指南

Java 程序员 后端

系统性能典型案例分析:高性能队列Disruptor,一文深入理解(1)

Java 程序员 后端

终于等到了!十位Java架构师整理的“阿里P7,看完老板哭着让我留下来

Java 程序员 后端

[ CloudWeGo 微服务实践 - 04 ] 尝试操作数据(1)

baiyutang

golang 微服务 10月月更

老板,运维和开发又打起来了!,你连基础的JVM运行时内存布局都忘了

Java 程序员 后端

老面试官问我:LRU 和 Innodb Buffer Pool 有什么关系?

Java 程序员 后端

系统性能百倍提升典型案例分析:高性能队列Disruptor(1)

Java 程序员 后端

终于彻底搞清楚了 MySQL spin-lock 之一次CPU问题定位过程总结(1)

Java 程序员 后端

绝了!你一直想要的数据库界的里程碑,Alibaba技术官内部私藏MySQL笔记

Java 程序员 后端

群晖DS218+做maven私服(nexus3),mysql性能调优

Java 程序员 后端

老大让我优化数据库,我上来就分库分表,他过来就是一jio

Java 程序员 后端

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon_AI&大模型_李忠良_InfoQ精选文章