写点什么

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon

  • 2024-04-30
    北京
  • 本文字数:1729 字

    阅读完需:约 6 分钟

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon

大型模型的出现为新的经济增长注入了新的动力,但在训练和推理方面,它们也面临诸多挑战。这些挑战包括计算资源的巨大需求、并行化限制、模型体积和训练难度、数据质量、能耗和推理速度、算力不足、数据处理难题、思维模式转变以及高昂的成本。


为了向业界提供更多思考和借鉴的机会,我们在 AICon 全球人工智能开发与应用大会上,特别设置了“大型模型推理优化”专题。这一专题由阿里巴巴的研究员林伟老师担任出品人,旨在为观众带来更严谨、更有启发的演讲。我们邀请了四位老师进行分享,他们的精彩演讲将为大家带来深刻的思考和丰富的收获。

BladeLLM 大模型高性能部署框架


我们很荣幸地邀请到阿里云的高级算法专家李深作为首个分享的嘉宾。作为阿里云人工智能平台 PAI 模型系统优化的 Tech Leader,他在模型压缩和推理优化等方面拥有超过 10 年的丰富经验。在本次大模型推理优化专题演讲中,李深将重点介绍阿里云的 BladeLLM 大模型高性能部署框架。BladeLLM 高性能部署框架是基于阿里云人工智能平台 PAI 的技术积累和实践经验构建的。该框架不仅应对了大模型在线服务部署中的场景特性、资源规模和性能指标等更高更复杂的要求,而且兼容了大模型主流生态,提供了灵活易用的接口。


在演讲中,李深将深入探讨大模型服务部署优化面临的主要挑战,以及 BladeLLM 架构与核心优化技术。这些技术包括高性能算子与 AI 编译优化、模型压缩与算法优化、长上下文优化等,将为听众呈现出多层次联合的极致性能优化方案。通过他的分享,听众将了解大模型服务部署中的主要瓶颈与技术挑战,探索大模型部署优化的主要技术手段,并且深入了解大模型在线服务的规模化生产部署的实践经验。

当大模型推理遇到算力瓶颈,如何进行工程优化?


本专题出席的第二位嘉宾是零一万物的资深算法专家李谋。他曾历任阿里达摩院和华为云 EI 服务产品部技术专家,目前担任零一万物大模型在线推理服务负责人。在本次专题演讲中,他将探讨当大模型推理遇到算力瓶颈时,如何进行工程优化。随着大语言模型的持续发展,其参数量和序列长度呈指数级增长,因此面临的算力挑战愈发严峻。他将结合大模型的算力需求和模型结构,详细介绍零一万物在构建 Yi 模型在线推理服务过程中所采用的优化技术手段。通过他的分享,听众将了解到大模型推理算力瓶颈及主要工程优化手段,以及大模型应用场景的未来发展趋势。

TensorRT-LLM: Past, Present and Future


我们很荣幸地邀请到英伟达的高级技术总监杨军作为我们的专题演讲嘉宾。作为英伟达 AI 计算架构部门的负责人,他主要关注于 AI 系统全栈优化技术。在本次大模型推理优化专题演讲中,他将分享关于 TensorRT-LLM 的主题:“TensorRT-LLM: 过去、现在与未来”。


TensorRT-LLM 项目源起于对大语言模型推理优化的迫切需求。在演进迭代过程中,团队不断进行设计思考,探索最佳方案以满足日益增长的需求。当前设计方案的核心原则将是他演讲的重点,将会深入探讨该方案背后的理念和技术实现。此外,杨军还将简要介绍 TensorRT-LLM 的未来规划,展望该项目在大模型推理优化领域的发展方向和趋势。通过他的分享,听众将获得对 TensorRT-LLM 项目的深入了解,探索其在过去、现在和未来的演进路径和价值。

太极 Angel 助力生成式大模型高效落地


我们邀请的第四位演讲的嘉宾是腾讯高级工程师刘凯。作为腾讯混元大模型推理方向负责人,他在大模型压缩优化及推理加速领域拥有丰富经验,曾带领团队完成了大模型压缩 & 推理框架的从零到一的构建。在本次大模型推理优化专题演讲中,刘凯将分享关于“太极 Angel 助力生成式大模型高效落地”的主题。


随着生成式 AI 技术的迅速发展,模型规模不断增大,结构也从 Dense 向 MoE 进化。在这一背景下,大模型应用的性能、吞吐、成本成为关注焦点。他将介绍腾讯太极机器学习平台所研发的 Angel-HCF 推理框架和 Angel-SNIP 压缩框架,以支持混元文生文、文生图、文生视频、多模态等 AI 生成领域的优化,助力腾讯混元大模型在公司内全面铺开应用。


刘凯将深入探讨生成式 AI 技术的挑战和常用优化方法,重点介绍太极 Angel-HCF 大模型推理框架和太极 Angel-SNIP 大模型压缩框架。通过他的分享,听众将了解生成式 AI 的技术难点和优化手段,大模型推理加速的技术细节,以及大模型压缩的技术方法和后续发展。



2024-04-30 19:0012435

评论

发布
暂无评论
发现更多内容

地表建筑物识别Dayo1

IT蜗壳-Tango

七日更 2月春节不断更

CoralCache:一个提高微服务可用性的中间件

华为云开发者联盟

数据库 微服务 中间件 内存 CoralCache

Kafka.01 - 简介

insight

kafka 2月春节不断更

Elasticsearch Query DSL 概述

escray

elastic 七日更 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

Hive HMS Canary 时间较长异常分析

kwang

大数据 hadoop hive

开源数据库管理系统现在比商业产品更受欢迎

PostgreSQLChina

数据库 postgresql 软件 开源社区

TCP 协议灵魂问题,巩固你的网路底层基础

前端学习总结,经验分享,项目经验分享过程

我是哪吒

学习 程序员 Vue 大前端 2月春节不断更

万字长文:解读区块链7类共识算法

华为云开发者联盟

区块链 公有链 拜占庭容错 共识算法 公式算法

诊所数字化:就诊流程标准化和产品SOP设计

boshi

数字化转型 医疗 七日更

竞猜商城系统软件制作

v16629866266

数据中心决策如何快人一步?一块大屏轻松实现3D数据可视化

一只数据鲸鱼

物联网 数据中心 数据可视化 IDC 机房管理

android进阶之光!还有人不知道什么是AndroidX的吗?通用流行框架大全

欢喜学安卓

android 程序员 面试 移动开发

最新金三银四阿里巴巴内部Java架构师面试突击面试题手册,面试前必看

Java架构追梦

Java 阿里巴巴 架构 面试 金三银四

15. Python 程序运行速度如何提高十倍?第一遍滚雪球学 Python 收工

梦想橡皮擦

Python 2月春节不断更

对DevOps的九大误解,是时候纠正了!

禅道项目管理

开源 DevOps 敏捷 自动化 持续交付

LeetCode题解:1143. 最长公共子序列,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

技术秘籍 | 如何简单优雅的适配textview行间距?

百度开发者中心

大前端 TextView

架构师week12心得

Geek_xq

DIY一款4路USB转TTL串口调试模块

不脱发的程序猿

DIY 电路设计 硬件设计 USB电路 USB转TTL

2021金三银四想进字节大厂必看:LeetCode算法收割机+算法刷题宝典

比伯

Java 编程 架构 面试 算法

GitHub上爆火的Java性能优化100+小技巧!(干货建议收藏)

Java架构师迁哥

Elasticsearch Search API 基础语法

escray

elastic 七日更 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

一、MongoDB简介

Kylin

数据库 mongodb 学习 七日更 二月春节不断更

日记 2021年2月19日(周五)

Changing Lin

2月春节不断更

架构师week12作业

Geek_xq

一文搞懂TCP的三次握手和四次挥手

不脱发的程序猿

三次握手 四次挥手 TCP/IP 网络通信协议 二月春节不断更

【STM32】ST-LINK下载器下载后需复位,程序才运行的问题

AXYZdong

硬件 stm32 2月春节不断更

【LeetCode】最大连续1的个数三Java题解

Albert

算法 LeetCode 2月春节不断更

翻译:《实用的Python编程》01_07_Functions

codists

Python 人工智能 后端 数据结构与算法 函数

了解操作系统的那些事儿,从这篇文章开始

飞天小牛肉

Java 程序员 面试 操作系统 2月春节不断更

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon_AI&大模型_李忠良_InfoQ精选文章