「如何实现流动式软件发布」线上课堂开课啦,快来报名参与课堂抽奖吧~ 了解详情
写点什么

超 BERT 24 倍!英伟达发布有史以来最大 NLP 模型 MegatronLM

2019 年 8 月 14 日

超BERT 24倍!英伟达发布有史以来最大NLP模型MegatronLM


8 月 13 日,InfoQ 从英伟达方面获悉,其用于开发和运行可理解和响应请求的对话式 AI 的 GPU 强化平台,已经达成了一些重要的里程碑,并打破了若干新记录,其 AI 平台目前拥有迄今为止最快的训练记录、最快的推断速度和最大的训练模型。


最快的训练速度:

英伟达的 AI 平台仅需 53 分钟就能够完成模型训练,经过训练的模型在短短 2 毫秒多一点的时间里(10 毫秒在业内被认为是高水平线)就能够成功地做出推理(即利用通过训练学习到的能力得出结果),这创造了新的记录。


英伟达能够使用优化的 PyTorch 软件和超过 1000 个 GPU 的 DGX-SuperPOD 训练 BERT-Large ,能够在 53 分钟内训练 BERT。


“如果没有这种技术,训练其中一种大型语言模型可能需要数周时间” ,英伟达应用深度学习副总裁 Bryan Catarazano 表示。


最快的推理时间

英伟达称,通过运行 Tesla T4 GPU 和针对数据中心推理优化的 TensorRT 5.1 上运行数据中心推理,它已经实现了最快的 BERT 推理时间 —— 2.2 毫秒。Catarazano 表示,当 CPU 服务时,BERT 推理最多需要 40 毫秒,而现在的许多会话式人工智能操作会在 10 毫秒内完成。


有史以来最大 NLP 模型

除了上述记录,英伟达还发布了全球最大的基于 Transformer 的 NLP 模型——MegatronLM(威震天)。“威震天” 使用了 83 亿个参数,其大小是 BERT-Large(当前最大的核心 BERT 模型,BERT 是世界上最先进的人工智能语言模型之一,也被广泛认为是 NLP 标杆的先进模型)的 24 倍,比 OpenAI 的 GPT—2 大 5 倍。


所有实验是在英伟达的 DGX SUperPOD 上进行的。这项工作中,英伟达在现有的深度学习硬件,软件和模型之上构建了世界上最大的基于 Transformer 的语言模型,在具有 8 路模型并行性的 512 个 NVIDIA V100 GPU 上有效地训练了一个 83 亿参数语言模型,并在整个应用程序中实现高达 15.1 PetaFLOPS。


通过实施简单有效的模型并行方法,英伟达成功地超越了传统单 GPU 训练所带来的限制,只对现有 PyTorch 变换器实现进行了少量有针对性的修改。


这些代码使用本机 Python 编写,易于运行,利用混合精度培训,并利用 NCCL 库在 GPU 之间进行通信。由于缩放比例较弱,英伟达发现越来越大的变压器模型可以在相同的时间内训练,与较小的变压器相比,可以显着提高性能。


大规模语言建模对于诸如文章补全、问答和对话系统等 NLP 任务非常有用,训练最大的神经语言模型是推进 NLP 应用程序最先进技术的最佳方式。“大型语言模型正在为自然语言革新人工智能“,Catarazano 表示,”他们正在帮助我们解决异常困难的语言问题,使我们更接近真正对话 AI 的目标 ” 。


代码已在 Github 中开源

英伟达已经在 Github 中开源了上述每项专长的代码,以帮助 AI 从业者和研究人员探索创建大型语言模型或加速 GPU 的推广或推理。


开源地址:https://github.com/NVIDIA/Megatron-LM


GPU 还帮助微软的 Bing 改善搜索结果,Bing 使用英伟达硬件将延迟时间缩短了一半。微软必应集团项目经理表示,与基于 CPU 的平台相比,在使用 Azure NVIDIA GPU 进行推理时,微软实现了 2 倍的延迟减少和 5 倍的吞吐量改进。


通过为其 AI 平台和 GPU 添加关键优化,英伟达的目标是成为会话式人工智能服务的主要提供商。现在英伟达打破了实时会话 AI 记录,谷歌 XLNet、微软 MT-DNN、Facebook 的 RoBERTa 等竞争对手有压力了。


参考链接:


https://nv-adlr.github.io/MegatronLM


2019 年 8 月 14 日 18:363114
用户头像
刘燕 InfoQ记者

发布了 673 篇内容, 共 213.1 次阅读, 收获喜欢 1291 次。

关注

评论

发布
暂无评论
发现更多内容

首个区块链金融应用规范出炉,标准先行避免“先污染后治理”

CECBC区块链专委会

技术规范 应用评估规则 话语权 政府积极推进

ARTS 打卡(2020.07.13-2020.07.19)

小王同学

架构师训练营第八周课后题

Cloud.

产业区块链一周新动态

CECBC区块链专委会

多项扶持政策 产业研究高涨 学会协会成立 应用频繁落地

第八周学习总结

qihuajun

设计数据库

左洪斌

数据结构和算法-链表

jason

第8周作业

小胖子

Java有效面试题

老大哥

Java 面试

AI与劳模的交点:拼多多农研大赛释放的产业能量

脑极体

程序的机器级表示-访问数据

引花眠

ARTS打卡 第9周

引花眠

ARTS 打卡计划

ARTS 打卡第 4 周

Scotty

java并发系列 :实战篇,微服务日志的伤痛,一并帮你解决掉

南方有乔木兮

LeetCode题解: 206. 反转链表,JavaScript,容易理解的递归解释,详细注释

Lee Chen

LeetCode 前端进阶训练营

架构师训练营第八周课后总结

Cloud.

“链”上普洱,云南省区块链中心走进大美普洱

CECBC区块链专委会

区块链+ “链”上普洱 数字云南 分布式产业

安全系列之——手写JAVA加密、解密

诸葛小猿

对称加密 加密解密 非对称加密 rsa AES

周末在家加班开发代扣支付网关!

诸葛小猿

加班

ARTS Week9

时之虫

ARTS 打卡计划

第八周作业

qihuajun

全栈新星 -- Dart

金刚狼

flutter dart 全栈 aqueduct

从零开始写一个迷你版的Tomcat

简爱W

应用程序研发之网络-分层模型

superman

Spark 窗口函数 I

马小宝

spark 窗口函数 spark window functions

8week

一叶知秋

架构师课程第八周 作业

杉松壁

【架构师训练营 - 作业 -8】

小动物

C++编译过程 宏 内联和静态变量

正向成长

JDK1.8新特性(六):Stream的终极操作,轻松解决集合分组、汇总等复杂操作

xcbeyond

stream 集合 JDK1.8 Collections JDK1.8新特性

Java面试胜经001| 阿里Java面试题118道

BUZHIDAO

Java 面试

超BERT 24倍!英伟达发布有史以来最大NLP模型MegatronLM-InfoQ