写点什么

腾讯披露最新大模型训练方法:效率提升至 2.6 倍、可节省 50% 算力成本

  • 2023-11-24
    北京
  • 本文字数:1361 字

    阅读完需:约 4 分钟

大小:708.58K时长:04:01
腾讯披露最新大模型训练方法:效率提升至2.6倍、可节省50%算力成本

如今,大模型的参数规模呈现指数级增长。在算力紧缺的背景下,如何提升大模型训练和推理的效率,并降低成本,成为业界关注的焦点。

 

11 月 23 日,腾讯披露,腾讯混元大模型背后的自研机器学习框架 Angel 再次升级,大模型训练效率提升至主流开源框架的 2.6 倍,千亿级大模型训练可节省 50%算力成本。升级后的 Angel 支持单任务万卡级别超大规模训练,进一步提升腾讯云 HCC 大模型专属算力集群的性能和效率。

训练推理效率如何再提升

 

面向大模型训练,腾讯自研了机器学习训练框架 AngelPTM,针对预训练、模型精调和强化学习等全流程进行加速和优化:

 

  • 在存储方面,AngelPTM 计算支持多维度的并行,包括常见的数据并行、模型并行、流水并行和序列并行。此外,腾讯在 ZeRO-Cache 的基础上加入了统一视角技术,通过统一的地址寻址方式把显存和主存打通,训练时大量参数先放到系统对层里,需要时再放到显存里,以此将有限的显存容量扩展,单机存储容量提升 90%。

  • 通讯方面,腾讯通过软硬件结合的方式解决。首先,腾讯用自研交换机构建 3.2T RDMA 网络来拓宽带宽,然后结合框架软件层面做 GPU 拓扑感知,此外还有负载均衡的流水并行。

  • 稳定性方面,腾讯对基础设施的网络、硬件、存储、云原生调度都加了相应的监控指标。发现故障后,调度平台会把故障报告给 AngelPTM 框架。大多数情况下,调度平台会进行自动续训,训练过程中也会写快照。此外,除了系统容错还有收敛性监控,包括参数极值、Loss 曲线、模型参数本身的极值、梯度的极值、中间变量、激活值等。

 

另外,鉴于国产芯片可能会有一些异构的生态,腾讯提供了算子编译层,整个模型研发基本可无缝低成本迁移。

 

为解决推理成本不断上升问题,腾讯自研的大模型推理框架 AngelHCF 通过扩展并行能力,采用了 Embedding 共享、Attention 算子优化、Paged Attention 优化等方式,同时提供了量化、稀疏化、蒸馏和剪枝等关键能力,以提高吞吐能力,从而实现更快的推理性能和更低的成本。

 

根据官方数据,相较于业界主流框架,AngelHCF 的推理速度提高了 1.3 倍。在腾讯混元大模型文生图的应用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。

 

目前,相关能力已通过腾讯云对外开放。基于升级后的 Angel 机器学习框架,腾讯云 TI 平台可提供更优的训练和推理加速能力,并支持客户用自己的数据一站式训练精调,基于腾讯混元大模型打造专属智能应用。

一站式应用构建

 

现在的深度机器学习平台已经与之前有了本质的区别:通常大厂商或基础厂商提供基础模型,用户基于这个基础模型做精调,做专属模型的训练,之后再围绕精调后的专属模型做应用构建,搭建一个能释放这个模型推理理解能力的应用框架,嵌入到自己的 APP 或业务流程中。

 

为此,Angel 还提供了从模型研发到应用落地的一站式平台,支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建。

 

现在的整个生产链路新增加了五个能力:提供基座模型、数据能力、精调、评估和一键部署。模型接入层面,腾讯混元大模型提供千亿、百亿、十亿多个尺寸的模型,来适配各类应用场景的需求;数据处理上,提供清洗、分类、质质检和筛选等数据能力;精调方面,提供 LORA 调参、全参精简调参、全参全量调参等多种调参模式。

 

据悉,腾讯内部已有超过 300 项业务和应用场景接入腾讯混元大模型内测,相比上个月数量翻了一倍,覆盖文本总结、摘要、创作、翻译、代码等多个领域。

 

2023-11-24 11:318148

评论

发布
暂无评论
发现更多内容

【Java深入学习】并发常见方法的注意事项

钟奕礼

Java 面试 java;

组装式交付-云巧 知多少

六月的雨在InfoQ

9月月更 云巧 组装式交付 云巧资产 云巧工坊

玩转 Flowable 流程实例

江南一点雨

Java springboot workflow flowable

模块一作业

Geek_1264yp

融云x白鲸《2022社交泛娱乐出海白皮书》

融云 RongCloud

互联网 白皮书 融云

总览 Java 容器--集合框架的体系结构

钟奕礼

Java 面试 java;

阿里云服务器ECS基本操作指南

六月的雨在InfoQ

阿里云 SSH xshell 云服务器ECS 9月月更

为什么大数据工程师比数据科学家的需求更大

雨果

数据工程师

java基础面试题

钟奕礼

编程 java;

Java | this和super关键字【深入理解子类和父类的继承关系】

Fire_Shield

super this 9月月更

开发者有话说|成长之路

六月的雨在InfoQ

个人成长 开会 996 007 9月月更

【编程基础】利用Python实现阿姆斯特朗数的求解

迷彩

Python 9月月更 阿姆斯特朗数 水仙花数

字节半天*3面/5天拿offer,全凭自身硬实力和这份Java面试笔记

钟奕礼

Java 面试 java;

数据API开发如何快速上手:先了解什么是数据API生命周期管理

雨果

API 数据api

手写vue-router核心原理

hellocoder2029

Vue

Java开发5年,复习1个月成功上岸京东物流,面试和复习思路分享

钟奕礼

Java 面试 java;

idea 远程开发 client

黄敏

2022届秋招Java岗高频面试题盘点,老司机也未必全会,真的太卷了

钟奕礼

Java 面试 java;

中心化决议管理——云端分析

字节跳动终端技术

ios 研发效能 CocoaPods 制品库 云化服务

SAE 助力贵州酒店集团从容支撑贵州特产抢购

阿里巴巴中间件

阿里云 Serverless 云原生 SAE

时隔一年多 jQuery 再度发布 3.6.1 新版本,你还在用JQ吗?

茶无味的一天

JavaScript 前端 框架 ​jQuery

HTTP - TLS1.3 初次解读

懒时小窝

概述数据交换的构建策略

穿过生命散发芬芳

数据交换 9月月更

架构实战训练营模块1作业--开启架构之旅

阿姆斯壮

架构实战营 #架构实战营

一比一手写迷你版vue,彻底搞懂vue运行机制

hellocoder2029

JavaScript

深入剖析nodejs中间件

coder2028

node.js

2022第三届云原生编程挑战赛--Serverless VSCode WebIDE使用体验

六月的雨在InfoQ

Serverless 边缘容器 9月月更 Serverless VSCode WebIDE 线上ide

LED显示屏价格与品质哪个更重要

Dylan

LED LED显示屏 led显示屏厂家

IP地址和MAC地址都可以确定目标地址,为什么二者都在使用,舍弃一个是否可行?

阿柠xn

Mac IP 网络 协议族 9月月更

想从事运维岗位应该学习什么技能?谁能告诉一下?

行云管家

运维 网络运维 IT运维

公司用的堡垒机叫什么?多少钱?

行云管家

网络安全 堡垒机 等级保护 过等保

腾讯披露最新大模型训练方法:效率提升至2.6倍、可节省50%算力成本_AI&大模型_褚杏娟_InfoQ精选文章