写点什么

腾讯发布超大预训练系统派大星,聚焦解决 BERT 等超大模型训练时的“GPU 内存墙”问题

  • 2021-11-02
  • 本文字数:748 字

    阅读完需:约 2 分钟

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题

近日,腾讯微信 AI 团队联合 Tencent NLP Oteam 于 GitHub 上发布开源项目派大星“PatrickStar”。该开源项目将聚焦解决 GPT、BERT 等超大模型训练时产生的“GPU 内存墙”问题,使用更为创新的异构内存管理方法,让相同配置的机器能够训练更大的模型,以更节能环保的方式让预训练模型普惠每位 NLP 社区用户。经测试结果显示,派大星性能表现优于微软 DeepSpeed,在不到 5000 元价位的个人游戏电脑上,即可训练一个 7 亿参数的 GPT 模型。



以 GPT、BERT 为代表的预训练模型(PTM)是自然语言处理(NLP)领域的核心技术,但由于 GPU 硬件的存储空间有限,PTM 的可训练规模难以突破,专业人员称之为"GPU 内存墙",同时, PTM 预训练的过程具备高耗能、高成本、高碳等弊端——往往训练一次万亿级别的预训练模型要烧掉 154 万人民币,消耗的电能制释相当于数十辆小汽车从出厂到报废的碳排放总和。


为攻克该痛点,腾讯微信 AI 团队联合 TencentNLP Oteam 从头搭建了派大星。它通过细粒度的方式管理模型数据,更有效使用了异构内存空间,进一步突破 PTM 模型规模的极限。同时,派大星的设计比同类方法占用更低内存使用,减少了 CPU 和 GPU 之间数据搬移开销,从而显著提升了计算资源的利用率。并且,派大星可以和多种并行训练方式正交使用。比如,派大星使用微软提出的零冗余优化器来实现单机多卡的数据并行。


实验结果表明,派大星将模型规模上限在目前最佳方案 DeepSpeed 的基础上提升了 1.5 倍,并且展现了明显高于 DeepSpeed 的计算效率。这将极大降低了 PTM 训练过程中的碳排放,以技术优化的方式助力低碳环保事业。


目前,派大星已参与到微信搜一搜、微信对话开放平台、小微智能音响等产品研发工作中,助力降低 GPU 卡使用数量,提升机器的利用率,减少数据中心的碳排放规模。接下来,微信 AI 团队也将持续深化开源技术的研发及应用,以创新促进行业发展及生态建设。

2021-11-02 13:364498

评论

发布
暂无评论
发现更多内容

关于MVVM和MVC,面试看这篇就够了

山河已无恙

mvc 全栈 MVVM 2月月更

UMEM:友盟统计自定义事件多应用一键同步 & 批处理工具

SamgeApp

Docker Vue 友盟助手 友盟自定义事件批处理 友盟统计

面试突击25:sleep和wait有什么区别?

王磊

java面试

盘一盘常见的6种索引失效情况

华为云开发者联盟

MySQL 索引 字符串 查询 索引失效

VIPKID基于Karmada的容器PaaS平台落地实践

华为云原生团队

开源 Kubernetes k8s多集群管理 混合云 分布式云

开源| 直播推拉流2.0升级了什么

anyRTC开发者

开源 音视频 屏幕共享 视频直播 美颜滤镜

数据库读写分离如何保证主从一致性?

蜜糖的代码注释

MySQL 数据库 2月月更

大厂偏爱的Agent技术究竟是个啥

捉虫大师

架构 agent

凡泰极客成为W3C成员并加入MiniApps工作组,将积极参与小程序快应用技术标准化进程

FinClip

小程序

C++异常处理机制

正向成长

c++ 异常处理

『The ShardingSphere Global Echo』Vol.4

SphereEx

数据库 开源 中间件 ShardingSphere SphereEx

工作想法小计(2):2/14 - 2/18

非晓为骁

个人成长

Python 中的数组哪去了?

宇宙之一粟

Python 数组 2月月更

十年所学,梦想终至,不负时光 | 《云端架构》新书首推发布,来自极度努力的吕校长

博文视点Broadview

学生管理系统架构设计文档

阿卷

架构实战营

Pulsar 职位广场 | 腾讯、华为云、虾皮、众安保险、StreamNative 等多个热招岗位

Apache Pulsar

开源 架构 云原生 招聘 Apache Pulsar

用简单例子带你了解联合索引查询原理及生效规则

华为云开发者联盟

sql 索引 查询 联合索引

鲲鹏DevKit & BoostKit直播解密:如何“做开发者的开发者”

科技热闻

CSS实现阮大佬博文的阅读进度功能

战场小包

CSS css3 前端 2月月更

基于CC2530设计的智能风扇

DS小龙哥

2月月更 智能风扇

学生管理系统的架构设计

凌波微步

「架构实战营」

上海市宝山区委书记陈杰一行参访旺链科技

旺链科技

区块链 产业区块链 Vone新闻

云原生时代,如何保证容器镜像安全?

极狐GitLab

DevSecOps 镜像安全 极狐GitLab

[Python]第一章(建议收藏)

謓泽

Python 2月月更

eBPF 完美搭档:连接云原生网络的 Cilium

火山引擎边缘云

边缘计算 ebpf 云原生网络 cllium

学生管理系统的架构文档

卡西毛豆静爸

「架构实战营」

如何打造一个能自动回复的钉钉机器人

老表

Python 机器人 Linxu 跟老表学云服务器

[Python]介绍

謓泽

Python 2月月更

Nginx跨域解决配置示例

nginx 跨域

好用不卡,这些插件和配置让你的 Webstorm 更牛逼!

前端下午茶

前端 工具 webstorm

OpenHarmony移植案例与原理:如何适配服务启动引导部件bootstrap_lite

华为云开发者联盟

OpenHarmony 移植 bootstrap_lite startup 系统服务

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题_开源_InfoQ编辑部_InfoQ精选文章