腾讯混元 AngelHCF 推理加速框架优化实践｜AICon 上海_架构_AICon 全球人工智能开发与应用大会_InfoQ精选文章



大小：537.93K时长：03:03

腾讯混元 AngelHCF 推理加速框架优化实践｜AICon 上海

5 月 23 日-24 日，AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地，围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题，呈现技术与应用融合的最新趋势。

腾讯推理架构师向乾彪已确认出席 AICon 上海并在大模型推理性能优化策略专题发表题为《腾讯混元 AngelHCF 推理加速框架优化实践》的主题分享。腾讯 AngelHCF 推理加速框架针对混元 LLM 大语言模型做了深度推理优化，结合全新的 Hybrid 模型结构整体上取得了不错的推理成本优势，支撑了元宝线上混元模型上万卡推理。同时，AngelHCF 于 24 年初即大规模部署上线了万亿 MoE 大模型，针对大规模 MoE 模型通信特点做了混合切分策略优化，叠加模型压缩、PD 分离等优化手段，显著降低了线上推理成本。本次分享将从不同角度分别介绍腾讯混元推理加速框架 AngelHCF 所做的一些针对性优化，结合全新的 Turbos 模型结构，希望能给听众带来一些新的启发。

向乾彪聚焦于 GPU 推理加速技术多年，在性能优化、高性能异构计算等方面积累了丰富的经验，目前主要负责混元大语言模型推理加速框架 AngelHCF，涉及算子、通信、架构等多方面优化。他在本次会议的详细演讲内容如下：

演讲提纲：
1. 腾讯混元模型 & AngelHCF 推理加速框架概述
2. 混元 Turbos Hybrid 推理优化
Mamba Hybrid 模型的推理优势及收益
kernel 精度以及性能调优
显存 & KVCache 优化之路
3. 超大规模 MoE 模型并行策略优化
各种模型切分策略的优缺点
模型并行融合策略
通信优化
4. PD 分离部署优化
PD 分离部署的优势
请求智能调度策略
计算通信 Overlap
5. 腾讯混元 & AngelHCF 落地情况和展望

听众收益：
了解混元 Turbos Hybrid 结构带来的性能收益以及推理优化手段
了解大规模 MoE 语言模型推理加速具体方法 &实践

除此之外，本次大会还策划了AI Agent 构建及多元应用、多模态大模型创新实践、AI for Data，数据管理与价值挖掘实践、大模型推理性能优化策略、AI 产品设计的创新思维、智能硬件与大模型的融合探索、金融领域大模型应用实践、大模型助力业务提效实践等专题，届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 580 元，详情可扫码或联系票务经理 13269078023 咨询。

评论

发布

暂无评论

数据上报那些事

神策技术社区

数据神策数据

一篇神文让你"一夜封神"Mycat中间件(最详细讲解)

程序员小呆

Java 程序员架构师 mycat

内卷把同事逼成了“扫地僧”，把 Github 上所有面试题都整理了一遍~ 足足 24W 字！

编程程序员 IT 计算机ｊａｖａ

国家第一梯队！开物入选特色专业型工业互联网平台

人工智能百度智能云

MySQL索引总结：14张图+代码+文字

Java MySQL 数据库架构后端

太香了！Github疯传的阿里分布式设计实录让面试进阶齐飞！

Java 程序员架构面试后端

极光笔记丨iOS 15推送新特性

ios 消息推送移动端

阿里P8爆肝三月！最新出土SQL手册：收获不止SQL优化，抓住SQL的本质

Java 编程程序员 IT 计算机

云栖大会｜盛宴之下，共赴一场视频云的进化论

阿里云CloudImagine

阿里云音视频 WebRTC 视频云云栖大会

索信达助力国有大行提升监管报送质量

索信达控股

大数据数据治理金融监管金融行业银行业

微博评论高性能高可用计算架构

优酷鸿蒙开发实践 | 鸿蒙卡片开发

阿里巴巴终端技术

ios android HarmonyOS 优酷移动端

☕【Java技术指南】「编译器专题」深入分析探究“静态编译器”（JAVA\IDEA\ECJ编译器）是否可以实现代码优化？

Java 编译器静态编译器 10月月更

百亿级系统架构首公开！阿里这份300多页的设计实录你还没有吗？

Java 程序员架构面试后端

亿级流量架构演进实战 | 从零构建亿级流量API网关 01

松然聊技术

接连三次霸榜GitHub，这个国产GitHub项目是真的强...

百度开发者中心

最佳实践方法论百度飞桨开源技术

亿级流量架构演进实战 | 从零构建亿级流量API网关 02

松然聊技术

架构师一定要看！微服务设计的四个原则

Java 程序员架构面试后端

容器化 | ClickHouse Operator 原理解析

数据库 Kubernetes Clickhouse

明道云APaaS在保险业中的应用场景例举

#1024我在现场# 征集线索引爆大奖！

InfoQ写作社区官方

1024我在现场热门活动

真香！在Github一夜爆火的面试题库，被各大厂要求直接下架

程序员小呆

Java 程序员面试架构师

一篇神文让你深入理解计算机系统——学习笔记

程序员小呆

Java 程序员架构师计算机

怎么阅读 Linux 内核源码

程序员小呆

Java Linux 程序员架构师

直接霸榜Github！阿里内网流传P8大牛的“满级”分布式架构笔记，

程序员小呆

Java 程序员面试架构师

金九银十吃透这份Spring Boot实战文档，让你超过90%的Java面试者

Java 编程架构面试 springboot

模块五作业

架构实战营

量化模拟线上流量实践

性能测试接口测试测试框架 FunTester 线上流量

性能加速最高可达28倍！这个NLP工具包不容错过

百度开发者中心

预训练模型 NLP 大模型

阿里技术官耗时半年总结出“满分”架构笔记，拿捏分布式到微服务

进击的王小二

Java 架构分布式微服务

Java核心基础——注解

注解ｊａｖａ