腾讯发布超大预训练系统派大星，聚焦解决BERT等超大模型训练时的“GPU内存墙”问题_开源_InfoQ编辑部_InfoQ精选文章

腾讯发布超大预训练系统派大星，聚焦解决BERT等超大模型训练时的“GPU内存墙”问题

近日，腾讯微信 AI 团队联合 Tencent NLP Oteam 于 GitHub 上发布开源项目派大星“PatrickStar”。该开源项目将聚焦解决 GPT、BERT 等超大模型训练时产生的“GPU 内存墙”问题，使用更为创新的异构内存管理方法，让相同配置的机器能够训练更大的模型，以更节能环保的方式让预训练模型普惠每位 NLP 社区用户。经测试结果显示，派大星性能表现优于微软 DeepSpeed，在不到 5000 元价位的个人游戏电脑上，即可训练一个 7 亿参数的 GPT 模型。

以 GPT、BERT 为代表的预训练模型(PTM)是自然语言处理（NLP）领域的核心技术，但由于 GPU 硬件的存储空间有限，PTM 的可训练规模难以突破，专业人员称之为"GPU 内存墙"，同时， PTM 预训练的过程具备高耗能、高成本、高碳等弊端——往往训练一次万亿级别的预训练模型要烧掉 154 万人民币，消耗的电能制释相当于数十辆小汽车从出厂到报废的碳排放总和。

为攻克该痛点，腾讯微信 AI 团队联合 TencentNLP Oteam 从头搭建了派大星。它通过细粒度的方式管理模型数据，更有效使用了异构内存空间，进一步突破 PTM 模型规模的极限。同时，派大星的设计比同类方法占用更低内存使用，减少了 CPU 和 GPU 之间数据搬移开销，从而显著提升了计算资源的利用率。并且，派大星可以和多种并行训练方式正交使用。比如，派大星使用微软提出的零冗余优化器来实现单机多卡的数据并行。

实验结果表明，派大星将模型规模上限在目前最佳方案 DeepSpeed 的基础上提升了 1.5 倍，并且展现了明显高于 DeepSpeed 的计算效率。这将极大降低了 PTM 训练过程中的碳排放，以技术优化的方式助力低碳环保事业。

目前，派大星已参与到微信搜一搜、微信对话开放平台、小微智能音响等产品研发工作中，助力降低 GPU 卡使用数量，提升机器的利用率，减少数据中心的碳排放规模。接下来，微信 AI 团队也将持续深化开源技术的研发及应用，以创新促进行业发展及生态建设。

评论

发布

暂无评论

架构师实战营模块六作业（拆分电商系统为微服务）

架构实战营

贪心算法最优装载问题（Java代码实现）

数据结构贪心算法 6月日更

网络攻防学习笔记 Day43

穿过生命散发芬芳

网络攻防 6月日更

SpringCloud Gateway 路由数量对性能的影响研究

性能优化动态路由 SpringCloud Gateway JMH性能基准测试

TempDB 的使用和性能问题

悟空聊架构

sql 性能调优 6月日更 TempDB

Python——数值列表

模块六作业 - 拆分电商系统为微服务

JAVA设计模式系列--单例模式

Java 后端设计模式单例模式 6月日更

【LeetCode】重复的DNA序列Java题解

算法 LeetCode 6月日更

未来，能源枯竭可以逆转吗？

Scrum Patterns : MetaScrum(译)

敏捷开发译文 Agile Scrum Patterns

SpringCloud Gateway 路由转发性能优化

性能优化动态路由 SpringCloud Gateway JMH性能基准测试

【Vue2.x 源码学习】第十二篇 - 生成 ast 语法树-流程说明

源码 vue2 6月日更

未来，能源枯竭可以逆转吗？

策略模式怎么玩？

设计模式策略模式 6月日更

架构师实战营模块六总结

立flag(第………………次)

【Flutter 专题】105 图解自定义 ACEPageMenu 滑动菜单 (一)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 6月日更

HTTP 长连接和短连接

TCP/IP HTTP协议 6月日更

Java语言概述以及环境搭建

java编程 6月日更

内卷的出路是躺平？

创新内卷 6月日更躺平

一文带你深入了解 Java 字节码

技术后端 Java 25 周年基础

话题讨论｜如何看待腾讯试点强制6点下班

话题讨论加班文化 6月日更

【21-5】Grafana 时间Panel 如何使用

Grafana 6月日更 panel clock

【LeetCode】第一个错误的版本Java题解

算法 LeetCode 6月日更

redis分布式锁原理

redis 分布式锁

【通俗易懂】虚拟DOM，如何更高效DIFF

Diff 6月日更

并发王者课-黄金2：行稳致远-如何让你的线程免于死锁

Java 多线程并发

Windows 10 如何设置网络属性为私有

架构实战营-作业六

Single-Spa构建第一个微前端项目

Vue 大前端 6月日更