8 月 13 日,InfoQ 从英伟达方面获悉,其用于开发和运行可理解和响应请求的对话式 AI 的 GPU 强化平台,已经达成了一些重要的里程碑,并打破了若干新记录,其 AI 平台目前拥有迄今为止最快的训练记录、最快的推断速度和最大的训练模型。
最快的训练速度:
英伟达的 AI 平台仅需 53 分钟就能够完成模型训练,经过训练的模型在短短 2 毫秒多一点的时间里(10 毫秒在业内被认为是高水平线)就能够成功地做出推理(即利用通过训练学习到的能力得出结果),这创造了新的记录。
英伟达能够使用优化的 PyTorch 软件和超过 1000 个 GPU 的 DGX-SuperPOD 训练 BERT-Large ,能够在 53 分钟内训练 BERT。
“如果没有这种技术,训练其中一种大型语言模型可能需要数周时间” ,英伟达应用深度学习副总裁 Bryan Catarazano 表示。
最快的推理时间
英伟达称,通过运行 Tesla T4 GPU 和针对数据中心推理优化的 TensorRT 5.1 上运行数据中心推理,它已经实现了最快的 BERT 推理时间 —— 2.2 毫秒。Catarazano 表示,当 CPU 服务时,BERT 推理最多需要 40 毫秒,而现在的许多会话式人工智能操作会在 10 毫秒内完成。
有史以来最大 NLP 模型
除了上述记录,英伟达还发布了全球最大的基于 Transformer 的 NLP 模型——MegatronLM(威震天)。“威震天” 使用了 83 亿个参数,其大小是 BERT-Large(当前最大的核心 BERT 模型,BERT 是世界上最先进的人工智能语言模型之一,也被广泛认为是 NLP 标杆的先进模型)的 24 倍,比 OpenAI 的 GPT—2 大 5 倍。
所有实验是在英伟达的 DGX SUperPOD 上进行的。这项工作中,英伟达在现有的深度学习硬件,软件和模型之上构建了世界上最大的基于 Transformer 的语言模型,在具有 8 路模型并行性的 512 个 NVIDIA V100 GPU 上有效地训练了一个 83 亿参数语言模型,并在整个应用程序中实现高达 15.1 PetaFLOPS。
通过实施简单有效的模型并行方法,英伟达成功地超越了传统单 GPU 训练所带来的限制,只对现有 PyTorch 变换器实现进行了少量有针对性的修改。
这些代码使用本机 Python 编写,易于运行,利用混合精度培训,并利用 NCCL 库在 GPU 之间进行通信。由于缩放比例较弱,英伟达发现越来越大的变压器模型可以在相同的时间内训练,与较小的变压器相比,可以显着提高性能。
大规模语言建模对于诸如文章补全、问答和对话系统等 NLP 任务非常有用,训练最大的神经语言模型是推进 NLP 应用程序最先进技术的最佳方式。“大型语言模型正在为自然语言革新人工智能“,Catarazano 表示,”他们正在帮助我们解决异常困难的语言问题,使我们更接近真正对话 AI 的目标 ” 。
代码已在 Github 中开源
英伟达已经在 Github 中开源了上述每项专长的代码,以帮助 AI 从业者和研究人员探索创建大型语言模型或加速 GPU 的推广或推理。
开源地址:https://github.com/NVIDIA/Megatron-LM
GPU 还帮助微软的 Bing 改善搜索结果,Bing 使用英伟达硬件将延迟时间缩短了一半。微软必应集团项目经理表示,与基于 CPU 的平台相比,在使用 Azure NVIDIA GPU 进行推理时,微软实现了 2 倍的延迟减少和 5 倍的吞吐量改进。
通过为其 AI 平台和 GPU 添加关键优化,英伟达的目标是成为会话式人工智能服务的主要提供商。现在英伟达打破了实时会话 AI 记录,谷歌 XLNet、微软 MT-DNN、Facebook 的 RoBERTa 等竞争对手有压力了。
参考链接:
https://nv-adlr.github.io/MegatronLM
评论