PyTorch 2.0编译器提高了模型训练速度_AI&大模型_Anthony Alford_InfoQ精选文章

飞天发布时刻：2024年 Forrester 公有云平台Wave™评估报告解读了解详情 



 写点什么

登录/注册

PyTorch 2.0编译器提高了模型训练速度

PyTorch基金会最近发布了PyTorch 2.0版本，这是一个 100%向后兼容的更新。该版本的主要 API 贡献是为深度学习模型提供了一个编译函数，可以加快训练速度。163 个开源人工智能项目的内部基准测试显示，在训练期间，这些模型平均运行速度提高了 43%。

PyTorch 2.0 的发布计划于 2022 年 12 月在PyTorch大会上宣布。除了新的编译特性外，该版本还包括通过缩放点积注意力（SDPA）的新实现来提高 Transformer-based 模型（如大语言模型和扩散模型）的性能。通过改进的Metal Performance Shaders（MPS）加快了在 Apple Silicon 上的训练，目前在 MPS 中实施了 300 项操作。除了核心版本外，包括 TorchAudio、TorchVision 和 TorchText 在内的域库也更新了新的测试版功能。总体而言，自 1.13.1 版本发布以来，2.0 版本包含了来自 428 名开发人员的 4500 多次提交。PyTorch 基金会的博客上写到：

能宣布 PyTorch®2.0 的发布，我们很激动，我们在 2022 年 12 月 2 日的 PyTorch 大会上强调了这一点！PyTorch 2.0 提供了相同的动态图模式（eager-mode）开发和用户体验，同时从根本上改变并加强了 PyTorch 在编译器级别的操作方式，提供了更快的性能和对动态形状和分布式的支持。

在 2022 年 PyTorch 大会的主题演讲中，PyTorch 联合创始人Soumith Chintala指出，由于 GPU 计算能力的增加，许多现有的 PyTorch 工作负载受到了内存带宽或 PyTorch 框架开销的限制。此前，PyTorch 团队通过用 C++编写一些核心组件来解决性能问题；Chintala 将 PyTorch 描述为“基本上是一个 C++代码库”，并表示他“讨厌”为 C++组件做出贡献。

新的编译特性基于四个用 Python 编写的底层组件：

TorchDynamo——通过将表示深度学习模型的 Python 代码重写为计算图块来执行图的获取
AOTAutograd ——为后退步骤执行“提前”自动微分
PrimTorch——将超过 2k 个 PyTorch 操作符规范化为固定的约 250 个原始操作符
TorchInductor——为加速器生成特定于硬件的快速后端代码

为了演示编译函数的性能改进和易用性，PyTorch 团队确定了 163 个开源深度学习项目进行基准测试。其中包括各种任务的实现，包括计算机视觉、自然语言处理和强化学习。除了对编译函数的单行调用外，该团队没有对代码进行任何更改。这一单一改动在 93%的项目中有效，在NVIDIA A100 GPU 上训练时，编译后的模型的运行速度提高了 43%。

在黑客新闻（Hacker News）关于此次发布的讨论中，一位用户指出：

通过与其他框架相比，我从 PyTorch 中学到的一条重要教训是，生产力胜过增量的性能改进。Caffe 和 MXNet 都以速度快为卖点的，但显然在此处或这里的速度都快了一些，但这并不重要。另一方面，一旦我们让一个系统运行并流行起来，社区将会以比竞争对手预期更快地缩小性能差距。另一个教训可能是老生常谈的但同样值得重复：对开源项目的投资和专业打磨很重要。

PyTorch的代码和2.0版本的发布说明可在 GitHub 上获得。

原文链接：

https://www.infoq.com/news/2023/03/pytorch-release-compile/

相关阅读：

里程碑！PyTorch 正式加入 Linux 基金会，社区治理这一核心将不会改变

深度学习为什么要选择 PyTorch

评论

发布

暂无评论

即学即会 Serverless | 如何解决 Serverless 应用开发部署的难题？

阿里巴巴云原生

阿里云开源 Serverless 云原生 Serverless Devs

SeekTiger治理通证STI流动性质押的背后，是DAO社区的支持

架构师成长路线图

微信朋友圈高性能架构

全链路压测（八）：构建三大模型

性能测试全链路压测稳定性保障

swagger2 统一默认Response Code

swagger 4月日更

怒肝 JavaScript 数据结构 — 数组篇(一)

JavaScript 数据结构 4月月更

OpenKruise v1.1：功能增强与上游对齐，大规模场景性能优化

阿里巴巴云原生

阿里云容器云原生 OpenKruise 套件

flink维表查询redis之flink-connector-redis

Linux驱动开发-编写(EEPROM)AT24C02驱动

一条SQL语句是如何执行的？

程序员阿杜

MySQL 数据库

当东数西算变成一场西游记……

体验一款基于AI和区块链的体感运动App（26/100）

NFT 区块链、 gamefi P2E

OpenYurt 之 Yurthub 数据过滤框架解析

阿里巴巴云原生

阿里云开源容器云原生边缘计算

初创者的精神和领导力--Coursera学习笔记（27/100）

领导力创业者

推荐一款可以替代Postman的国产api管理工具apipost

php 后端开发工具ｊａｖａ api管理工具

微服务从代码到k8s部署应有尽有系列（四、用户中心）

微服务 RPC web开发 go-zero Go 语言

SeekTiger治理通证STI流动性质押的背后，是DAO社区的支持

新的篇章，Pancake开通STI的流动性LP质押

BlockChain先知

基于 KubeVela 的机器学习实践

阿里巴巴云原生

阿里云开源容器云原生 KubeVela

王者荣耀商城异地多活架构设计

「架构实战营」

模块7作业-王者荣耀商城异地多活架构设计

卡西毛豆静爸

#架构实战营

Kubernetes官方java客户端之八：fluent style

程序员欣宸

赶紧给你的文件加个密吧！

恭喜我的同事丁宇入选年度 IT 领军人物

阿里巴巴云原生

阿里云开源云原生获奖

王者荣耀商城异地多活架构设计

「架构实战营」

架构设计学习资料汇总

系统架构实践（一）

为什么他们选择阿里云容器服务 ACK

阿里巴巴云原生

阿里云容器 ACK 合作阿里云云原生

王者荣耀商城异地多活架构设计

#架构师实战

浅谈软件项目开发过程