写点什么

腾讯混元 AngelHCF 推理加速框架优化实践|AICon 上海

  • 2025-04-25
    北京
  • 本文字数:965 字

    阅读完需:约 3 分钟

大小:537.93K时长:03:03
腾讯混元 AngelHCF 推理加速框架优化实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


腾讯推理架构师向乾彪已确认出席 AICon 上海并在大模型推理性能优化策略专题发表题为《腾讯混元 AngelHCF 推理加速框架优化实践》的主题分享。腾讯 AngelHCF 推理加速框架针对混元 LLM 大语言模型做了深度推理优化,结合全新的 Hybrid 模型结构整体上取得了不错的推理成本优势,支撑了元宝线上混元模型上万卡推理。同时,AngelHCF 于 24 年初即大规模部署上线了万亿 MoE 大模型,针对大规模 MoE 模型通信特点做了混合切分策略优化,叠加模型压缩、PD 分离等优化手段,显著降低了线上推理成本。本次分享将从不同角度分别介绍腾讯混元推理加速框架 AngelHCF 所做的一些针对性优化,结合全新的 Turbos 模型结构,希望能给听众带来一些新的启发。


向乾彪聚焦于 GPU 推理加速技术多年,在性能优化、高性能异构计算等方面积累了丰富的经验,目前主要负责混元大语言模型推理加速框架 AngelHCF,涉及算子、通信、架构等多方面优化。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 腾讯混元模型 & AngelHCF 推理加速框架概述

2. 混元 Turbos Hybrid 推理优化

  • Mamba Hybrid 模型的推理优势及收益

  • kernel 精度以及性能调优

  • 显存 & KVCache 优化之路

3. 超大规模 MoE 模型并行策略优化

  • 各种模型切分策略的优缺点

  • 模型并行融合策略

  • 通信优化

4. PD 分离部署优化

  • PD 分离部署的优势

  • 请求智能调度策略

  • 计算通信 Overlap

5. 腾讯混元 & AngelHCF 落地情况和展望


听众收益:

  • 了解混元 Turbos Hybrid 结构带来的性能收益以及推理优化手段

  • 了解大规模 MoE 语言模型推理加速具体方法 &实践


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-25 15:001

评论

发布
暂无评论
发现更多内容

数据上报那些事

神策技术社区

数据 神策数据

一篇神文让你"一夜封神"Mycat中间件(最详细讲解)

程序员小呆

Java 程序员 架构师 mycat

内卷把同事逼成了“扫地僧”,把 Github 上所有面试题都整理了一遍~ 足足 24W 字!

编程 程序员 IT 计算机 java

国家第一梯队!开物入选特色专业型工业互联网平台

百度大脑

人工智能 百度 智能云

MySQL索引总结:14张图+代码+文字

Java MySQL 数据库 架构 后端

太香了!Github疯传的阿里分布式设计实录让面试进阶齐飞!

Java 程序员 架构 面试 后端

极光笔记丨iOS 15推送新特性

极光JIGUANG

ios 消息推送 移动端

阿里P8爆肝三月!最新出土SQL手册:收获不止SQL优化,抓住SQL的本质

Java 编程 程序员 IT 计算机

云栖大会|盛宴之下,共赴一场视频云的进化论

阿里云CloudImagine

阿里云 音视频 WebRTC 视频云 云栖大会

索信达助力国有大行提升监管报送质量

索信达控股

大数据 数据治理 金融监管 金融行业 银行业

微博评论高性能高可用计算架构

Imaginary

优酷鸿蒙开发实践 | 鸿蒙卡片开发

阿里巴巴终端技术

ios android HarmonyOS 优酷 移动端

☕【Java技术指南】「编译器专题」深入分析探究“静态编译器”(JAVA\IDEA\ECJ编译器)是否可以实现代码优化?

码界西柚

Java 编译器 静态编译器 10月月更

百亿级系统架构首公开!阿里这份300多页的设计实录你还没有吗?

Java 程序员 架构 面试 后端

亿级流量架构演进实战 | 从零构建亿级流量API网关 01

松然聊技术

亿级架构

接连三次霸榜GitHub,这个国产GitHub项目是真的强...

百度开发者中心

最佳实践 方法论 百度飞桨 开源技术

亿级流量架构演进实战 | 从零构建亿级流量API网关 02

松然聊技术

亿级架构

架构师一定要看!微服务设计的四个原则

Java 程序员 架构 面试 后端

容器化 | ClickHouse Operator 原理解析

RadonDB

数据库 Kubernetes Clickhouse

明道云APaaS在保险业中的应用场景例举

明道云

#1024我在现场# 征集线索引爆大奖!

InfoQ写作社区官方

1024我在现场 热门活动

真香!在Github一夜爆火的面试题库,被各大厂要求直接下架

程序员小呆

Java 程序员 面试 架构师

一篇神文让你深入理解计算机系统——学习笔记

程序员小呆

Java 程序员 架构师 计算机

怎么阅读 Linux 内核源码

程序员小呆

Java Linux 程序员 架构师

直接霸榜Github!阿里内网流传P8大牛的“满级”分布式架构笔记,

程序员小呆

Java 程序员 面试 架构师

金九银十吃透这份Spring Boot实战文档,让你超过90%的Java面试者

Java 编程 架构 面试 springboot

模块五作业

potti

架构实战营

量化模拟线上流量实践

FunTester

性能测试 接口测试 测试框架 FunTester 线上流量

性能加速最高可达28倍!这个NLP工具包不容错过

百度开发者中心

预训练模型 NLP 大模型

阿里技术官耗时半年总结出“满分”架构笔记,拿捏分布式到微服务

进击的王小二

Java 架构 分布式 微服务

Java核心基础——注解

老农小江

注解 java

腾讯混元 AngelHCF 推理加速框架优化实践|AICon 上海_架构_AICon 全球人工智能开发与应用大会_InfoQ精选文章