开工福利|免费学 2200+ 精品线上课,企业成员人人可得! 了解详情
写点什么

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon

  • 2024-04-30
    北京
  • 本文字数:1729 字

    阅读完需:约 6 分钟

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon

大型模型的出现为新的经济增长注入了新的动力,但在训练和推理方面,它们也面临诸多挑战。这些挑战包括计算资源的巨大需求、并行化限制、模型体积和训练难度、数据质量、能耗和推理速度、算力不足、数据处理难题、思维模式转变以及高昂的成本。


为了向业界提供更多思考和借鉴的机会,我们在 AICon 全球人工智能开发与应用大会上,特别设置了“大型模型推理优化”专题。这一专题由阿里巴巴的研究员林伟老师担任出品人,旨在为观众带来更严谨、更有启发的演讲。我们邀请了四位老师进行分享,他们的精彩演讲将为大家带来深刻的思考和丰富的收获。

BladeLLM 大模型高性能部署框架


我们很荣幸地邀请到阿里云的高级算法专家李深作为首个分享的嘉宾。作为阿里云人工智能平台 PAI 模型系统优化的 Tech Leader,他在模型压缩和推理优化等方面拥有超过 10 年的丰富经验。在本次大模型推理优化专题演讲中,李深将重点介绍阿里云的 BladeLLM 大模型高性能部署框架。BladeLLM 高性能部署框架是基于阿里云人工智能平台 PAI 的技术积累和实践经验构建的。该框架不仅应对了大模型在线服务部署中的场景特性、资源规模和性能指标等更高更复杂的要求,而且兼容了大模型主流生态,提供了灵活易用的接口。


在演讲中,李深将深入探讨大模型服务部署优化面临的主要挑战,以及 BladeLLM 架构与核心优化技术。这些技术包括高性能算子与 AI 编译优化、模型压缩与算法优化、长上下文优化等,将为听众呈现出多层次联合的极致性能优化方案。通过他的分享,听众将了解大模型服务部署中的主要瓶颈与技术挑战,探索大模型部署优化的主要技术手段,并且深入了解大模型在线服务的规模化生产部署的实践经验。

当大模型推理遇到算力瓶颈,如何进行工程优化?


本专题出席的第二位嘉宾是零一万物的资深算法专家李谋。他曾历任阿里达摩院和华为云 EI 服务产品部技术专家,目前担任零一万物大模型在线推理服务负责人。在本次专题演讲中,他将探讨当大模型推理遇到算力瓶颈时,如何进行工程优化。随着大语言模型的持续发展,其参数量和序列长度呈指数级增长,因此面临的算力挑战愈发严峻。他将结合大模型的算力需求和模型结构,详细介绍零一万物在构建 Yi 模型在线推理服务过程中所采用的优化技术手段。通过他的分享,听众将了解到大模型推理算力瓶颈及主要工程优化手段,以及大模型应用场景的未来发展趋势。

TensorRT-LLM: Past, Present and Future


我们很荣幸地邀请到英伟达的高级技术总监杨军作为我们的专题演讲嘉宾。作为英伟达 AI 计算架构部门的负责人,他主要关注于 AI 系统全栈优化技术。在本次大模型推理优化专题演讲中,他将分享关于 TensorRT-LLM 的主题:“TensorRT-LLM: 过去、现在与未来”。


TensorRT-LLM 项目源起于对大语言模型推理优化的迫切需求。在演进迭代过程中,团队不断进行设计思考,探索最佳方案以满足日益增长的需求。当前设计方案的核心原则将是他演讲的重点,将会深入探讨该方案背后的理念和技术实现。此外,杨军还将简要介绍 TensorRT-LLM 的未来规划,展望该项目在大模型推理优化领域的发展方向和趋势。通过他的分享,听众将获得对 TensorRT-LLM 项目的深入了解,探索其在过去、现在和未来的演进路径和价值。

太极 Angel 助力生成式大模型高效落地


我们邀请的第四位演讲的嘉宾是腾讯高级工程师刘凯。作为腾讯混元大模型推理方向负责人,他在大模型压缩优化及推理加速领域拥有丰富经验,曾带领团队完成了大模型压缩 & 推理框架的从零到一的构建。在本次大模型推理优化专题演讲中,刘凯将分享关于“太极 Angel 助力生成式大模型高效落地”的主题。


随着生成式 AI 技术的迅速发展,模型规模不断增大,结构也从 Dense 向 MoE 进化。在这一背景下,大模型应用的性能、吞吐、成本成为关注焦点。他将介绍腾讯太极机器学习平台所研发的 Angel-HCF 推理框架和 Angel-SNIP 压缩框架,以支持混元文生文、文生图、文生视频、多模态等 AI 生成领域的优化,助力腾讯混元大模型在公司内全面铺开应用。


刘凯将深入探讨生成式 AI 技术的挑战和常用优化方法,重点介绍太极 Angel-HCF 大模型推理框架和太极 Angel-SNIP 大模型压缩框架。通过他的分享,听众将了解生成式 AI 的技术难点和优化手段,大模型推理加速的技术细节,以及大模型压缩的技术方法和后续发展。



2024-04-30 19:0012268

评论

发布
暂无评论
发现更多内容

万象革新,开启鸿蒙原生应用生态新篇章

最新动态

边缘云与应用场景

dappweb

ao 边缘云

投资者如何降低加密货币的风险

dappweb

加密货币 ao

区块链技术在未来大国博弈的作用

dappweb

区块链 ao

区块链在物联网领域的应用前景如何

dappweb

区块链 ao

能通俗易懂的说一下区块链

dappweb

区块链 ao

华为云618营销季Web及移动App上云体验,助力软件行业创新发展

YG科技

GitHub标星破千!这份Python并行编程手册,可以封神了!

我再BUG界嘎嘎乱杀

Python 编程 后端 开发语言 并行编程

加速鸿蒙生态共建,蚂蚁mPaaS助力鸿蒙原生应用开发创新

HarmonyOS SDK

华为 HarmonyOS

区块链跨链互操性:打破孤岛,构建互联互通的未来

dappweb

区块链 ao

直击HDC2024开发者主题演讲 HarmonyOS NEXT开发者解决方案全面升级

最新动态

华为阅读携手多家头部出版机构,共创数字阅读新纪元

最新动态

边缘计算:重塑医疗领域未来的关键力量

dappweb

边缘计算 ao

边缘云与硬件

dappweb

ao 边缘云

边缘云与软件平台

dappweb

ao 边缘云

下一个加密货币轰动:2024 年成功案例的 7 个精选

dappweb

加密货币 ao

区块链零知识证明:未来数据的“隐身斗篷”

dappweb

区块链 ao

解密区块链比特币费用:背后的逻辑与影响因素

dappweb

区块链 ao

AI+阅读,华为阅读带来鸿蒙生态下的新体验新能力

最新动态

人们为何希望比特币重生

dappweb

比特币 ao

普通人接触币圈应注意

dappweb

加密货币 ao

区块链中的共识机制是如何运作的

dappweb

区块链 ao

区块链模块化:构建灵活、可扩展的未来网络

dappweb

区块链 ao

2024-06-22:用go语言,给定一个起始下标为 0 的长度为3的整数数组 nums,根据这些数字构建三角形。 如果无法构成三角形,则返回 “none“; 否则根据三角形的边长关系返回对应类型的字

福大大架构师每日一题

福大大架构师每日一题

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon_AI&大模型_李忠良_InfoQ精选文章