写点什么

打磨三年、支持万亿 MoE,腾讯混元模型团队的真实推理实力到底如何?

  • 2024-05-15
    北京
  • 本文字数:2690 字

    阅读完需:约 9 分钟

大小:1.36M时长:07:56
打磨三年、支持万亿 MoE,腾讯混元模型团队的真实推理实力到底如何?

采访嘉宾|刘凯,腾讯混元大模型推理方向负责人

作者 | 华卫


2023 年 9 月,腾讯终于在一片翘首以盼中推出自研的混元大模型。对于入局早晚的问题,腾讯董事会主席兼首席执行官马化腾曾这样说道,“我们在埋头研发,但并不急于早早做完,把半成品拿出来展示。”


据悉,混元大模型未来能支持 50 多个腾讯业务产品,而幻觉比主流开源大模型降低 30% 至 50%、文生图推理耗时缩短至 3-4 秒,是混元大模型目前已达到的推理性能。那么,其背后的核心团队究竟做了哪些努力?技术实力到底如何?


就此,InfoQ 对腾讯混元大模型推理方向负责人刘凯进行了专访,听他详细讲述了腾讯混元大模型在推理和压缩方面的技术能力与团队实践。在即将召开的AICon全球人工智能开发与应用大会 暨 大模型应用生态展上,InfoQ 也邀请到刘凯老师来做演讲分享,他将进一步透露大模型推理加速与压缩的技术方法以及腾讯混元大模型的落地进展。

 

以下为访谈实录,经编辑。


如何在推理赛道扳回“一局”?

InfoQ:作为较晚入场大模型的国内互联网大厂,腾讯团队有什么优势?

刘凯:对于晚入场这个说法,并不准确。早在 2020 年,腾讯出于自身业务需要已经展开预训练大模型的技术探索和积累,并率先在内部业务譬如广告上进行应用投产。腾讯对于处理前沿技术探索和输出的关系,一贯以来是比较一致的,对于正在探索的技术路线,往往会用自身业务作为试验田对方案进行反复验证和完善,之后才会对外发布和输出。

说到优势,我觉得在大模型技术的前沿探索中,腾讯在以下方面具备相当的积累和竞争力:1、在数据、算法、工程等方向,我们有一批经验丰富的专家;2、我们有一个强大的机器学习平台 Angel(曾获 2023 年中国电子学会科学技术进步一等奖);3、腾讯内部有大量适合大模型落地的业务应用场景,能在和业务的合作中助力腾讯混元团队能力的快速成长。


InfoQ:推理能力对大模型而言十分关键,腾讯混元大模型做到了什么水平?目前是否有量化的能力指标?

刘凯:目前腾讯混元大模型的吞吐能力达到开源框架的 2 倍以上,文生图 &文生视频推理耗时下降 65%。规模上,模型支持万亿 MoE、上下文长度保持 256K 以上,同时支持多种压缩方法,包括量化、蒸馏、裁剪、稀疏、并行解码、步数蒸馏等,能在保证效果无损的基础上,将吞吐提升 2~8 倍。


InfoQ:不同模态的内容生成框架下,混元大模型采用的推理和压缩方法有差异吗?

刘凯:会存在一定的差异。比如文生文 &图生文的场景,由于模型较大一般需要采用分布式推理;而文生图 &文生视频的扩散模型,在大部分场景下使用单卡推理即可,不过随着模型的逐步增大,我们也在支持分布式推理。

压缩方法上也存在一定的差异,文生图 &文生视频扩散模型使用步数蒸馏收益更大,所以蒸馏的优先级会高于其他方法;而在生文场景,量化由于简单高效,优先级最高、之后逐步是蒸馏、投机采样、裁剪稀疏等方法。


InfoQ:目前有哪些可以有效提高模型推理速度和准确度的技术?主要优化思路是什么?

刘凯:并行解码等相关技术都值得一试,其主要思路是通过使用更小的模型或者一次更多的生成 token 数来加快速度,同时使用 base 模型进行结果校验来保证生成的效果。


InfoQ:对腾讯混元大模型来说,端侧推理是一个降低推理成本的好方式吗?是否有可能实现?

刘凯:是的,端侧推理是腾讯混元大模型逐步推进的一个方向。腾讯内部有很多业务适合端侧推理,比如会议、文档、输入法等。


将模型从大化“小”的心得

InfoQ:模型的规模参数大到一定程度后,会产生哪些负面效应?

刘凯:模型参数的持续上升,会带来成本的上升和耗时的增加,同时也给推理优化带来了很大的挑战。首先我们知道大模型推理的瓶颈主要集中在显存和带宽上,为了放下更大的模型,我们需要进行单机多卡、多机多卡的部署。

当使用多机多卡时,带宽就涉及到显存带宽、卡间带宽、网络带宽等三个方面,其速度依次递减,耗时会逐步上升,而部署卡数的上升必然会带来卡成本及配套设备成本的上升。此外,框架 3D 并行能力并非无限制无损扩展,如果超大模型设计的不合理,会使得优化难度成倍上升。

InfoQ:如何在保持性能效果的前提下将大模型做“小”?腾讯有什么好的技术思路分享?

刘凯:模型压缩方法主要包括蒸馏、裁剪、稀疏、量化等。在上述方法中,量化容易实现,是最稳定的,也是各大公司广泛使用的方法。以腾讯混元大模型为例,我们在 Dense 以及 MoE 模型都大规模使用了量化模型,从精度上覆盖了 INT8、FP8、INT4,并在逐步尝试 2bit、1bit 的压缩,目前在范围上已经支持了权重、激活、KV-Cache 的量化。

由于腾讯内部应用场景很多,对模型规模有多样的需求,我们也开发了裁剪+蒸馏的方式来快速扩展模型矩阵,保证各个业务可以使用适合自己的大模型。稀疏这块,其实服务器侧的使用会比较少,但腾讯在这块有持续打磨。除了上述通用方法之外,针对大模型也有一些新的压缩方法,比如文生文当中的 GQA/MQA,并行解码,Cache 方案等;文生图、文生视频的步数蒸馏等。

InfoQ:现实应用中,当落地场景的训练数据未知或不可获得时,如何合理进行模型压缩?

刘凯:针对这个问题我想稍微扩展一下,首先我们知道模型压缩一般分为 Training-Base 和 Training-Free 两种方法,但大模型压缩时我们一般还是建议走 Training-Free 过程,因为大模型的训练过程长、成本高、调参复杂,一般情况不建议去触碰。并且,随着模型规模的增大,无损压缩的难度是减小的,所以使用简单便捷的 Training-Free 的方法比较好。

使用 Training-Free 也需要一些数据进行校准,如果获得不到训练的数据时,我们的建议是通过两种方法解决:1、选取通用数据集的数据进行校准;2、使用大模型生成一定的数据来进行校准。

InfoQ:在即将到来的 AICon 上,您准备向听众分享哪些方面的内容?

刘凯:在即将到来的 AICon 上,我会给大家分享腾讯混元大模型推理框架 Angel-HCF、压缩工具 SNIP 的技术进展以及腾讯混元大模型的落地情况,并针对 GPU 底层优化、服务化能力、压缩算法的优缺点进行剖析,让大家能快速了解大模型推理相关技术。


嘉宾介绍:

刘凯,腾讯高级工程师,腾讯混元大模型推理方向负责人,负责文生文、文生图等大模型压缩优化及推理加速。10 年以上 GPU 高性能优化经验,丰富的深度学习推理框架优化经验。带领团队完成大模型压缩 & 推理框架从 0 到 1 的构建。

   

活动推荐:

AICon全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。


 

会议即将开幕,扫码可预约主题演讲直播,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。

追踪链接:https://sourl.co/faYrKr

2024-05-15 16:267919

评论

发布
暂无评论
发现更多内容

安全测试之探索windows游戏扫雷

京东科技开发者

编程 windows 企业号 3 月 PK 榜 动态调式 代码编写

奇点云数据云平台如何确保“多租户”安全?从某大型零售企业实践说起

极客天地

非常小的一个东西,Spring依赖注入Bean类型的8种情况

小小怪下士

Java spring 程序员 后端

强大的macOS效率工具,Alfred 5更新变动详解

Rose

Alfred Mac软件 Alfred 5 苹果效率工具

机器学习系列入门系列[七]:基于英雄联盟数据集的LightGBM的分类预测

汀丶人工智能

数据挖掘 机器学习 LightGBM

京东金融Android瘦身探索与实践

京东科技开发者

App 京东云 京东技术 企业号 3 月 PK 榜 京东科技

Sentinel Go- 揭秘 [热点参数] 的实现原理

柠檬汁Code(binbin0325)

golang 中间件 限流 原理分析 Sentienl

如何通过Java应用程序将PDF转为图片格式?

在下毛毛雨

PDF 图片 格式转换

Go 第三方 log 库之 zap 使用

江湖十年

后端 日志 Go 语言

复杂「场景」数据导入导出

Java 架构

关于数据库分库分表的一点想法

京东科技开发者

数据库 ShardingSphere 京东云 京东技术 企业号 3 月 PK 榜

多功能文件搜索软件:HoudahSpot中文版

真大的脸盆

Mac Mac 软件 文件搜索 搜索工具 搜索文件

mac版photoshop 2023存储为窗口显示空白、黑屏如何解决

Rose

PhotoShop ps2023存储空白 空白、黑屏

管理研发团队后,我发现用「速率」做度量错得离谱……

LigaAI

研发管理 研发效能 技术管理 效能度量 企业号 3 月 PK 榜

graphpad prism教程:如何使用 prism医学绘图分析软件?

Rose

prism破解版 prism教程 医学绘图分析

预约直播|3月30日下周四,应用促活大揭秘,快速提升DAU

HarmonyOS SDK

HMS Core

想要找macOS系统上跑分工具?Geekbench 6帮助您快速,准确地测量处理器和内存性能进行测试

Rose

mac系统 系统跑分 Geekbench Geekbench 6

PD虚拟机如何安装ARM版CentOS Linux系统镜像(苹果M1专用)

Rose

pd虚拟机 pd18虚拟机 CentOS Linux系统 Centos Stream 9

对于Vue3和Ts的心得和思考

京东科技开发者

Vue ts 京东云 京东技术 企业号 3 月 PK 榜

DevOps 在未来将如何演进?丨行业观察

SEAL安全

DevOps 平台工程

京东金融Android瘦身探索与实践

京东科技开发者

架构 sdk 安装包瘦身 APK 企业号 3 月 PK 榜

博睿数据数智领航营首场开营:保险科技数智化转型中的智能运维实践

博睿数据

智能运维 博睿数据 数智化转型 保险行业

在路上!OceanBase首次公布四大“开发者友好”实践

OceanBase 数据库

数据库 oceanbase

实战开发arthas-spring-boot-starter,监控你的微服务是否健康!

Java你猿哥

spring Spring Boot

GPT-4创造者:第二次改变AI浪潮的方向

OneFlow

Spring源码核心剖析

京东科技开发者

spring 前端 京东云 京东技术 企业号 3 月 PK 榜

详细分析Spring Boot启动流程

Java你猿哥

spring Spring Boot SpringBoot启动流程

【ASPLOS 2023】图神经网络统一图算子抽象uGrapher,大幅提高计算性能

阿里云大数据AI技术

人工智能 机器学习 性能优化 图神经网络 企业号 3 月 PK 榜

打磨三年、支持万亿 MoE,腾讯混元模型团队的真实推理实力到底如何?_生成式 AI_华卫_InfoQ精选文章