QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

PyTorch 2.5 发布,支持英特尔 GPU

  • 2024-11-19
    北京
  • 本文字数:1171 字

    阅读完需:约 4 分钟

大小:553.44K时长:03:08
PyTorch 2.5发布,支持英特尔GPU

最近,PyTorch 基金会发布了PyTorch 2.5版本,其中包含对英特尔 GPU 的支持。该版本还包含多项性能增强,如FlexAttentionAPI、TorchInductor CPU 后端优化,以及可缩短编译时间的区域编译功能。总体而言,该版本包含了自 PyTorch 2.4 以来的 4095 次提交。

 

最近举行的PyTorch大会演示了 PyTorch 对英特尔 GPU 的支持。英特尔工程师 Eikan Wang 和 Min Jean Cho 介绍了 PyTorch 为支持该硬件而做出的改变,包括泛化 PyTorch 运行时和设备层,使其更容易与新的硬件后端集成。此外,对于 torch.compile 和 torch.distributed,该版本实现了特定于英特尔 GPU 的后端。英特尔人工智能框架工程副总裁Kismat Singh表示


我们在 PyTorch 2.5 中添加了对英特尔客户端 GPU 的支持。基本上,这意味着你可以在使用最新英特尔处理器的英特尔笔记本电脑和台式机上运行 PyTorch。我们认为,这将在今年为 PyTorch 用户解锁 4000 万台笔记本电脑和台式机,预计到明年年底这一数值将达到 1 亿左右。


该版本新增了 FlexAttention API,它使 PyTorch 用户更容易在其模型中尝试不同的注意力机制。通常情况下,想要尝试新的注意力机制变体,研究人员需要直接在 PyTorch 算子中手动编码。然而,这可能会导致 “运行时缓慢和 CUDA OOM”。有了该 API,用户只需要编写 “几行惯用的 PyTorch 代码”就可以完成这项工作。然后,编译器会将这些代码转换为最优内核,“不会产生任何额外的内存开销,而性能可与手写内核相媲美”。

 

有多项性能改进尚处于 Beta 测试阶段。新增的后端 Fused Flash Attention 在英伟达 H100 GPU 上 “比 FlashAttentionV2 快 75%”。torch.compile 的区域编译功能不再需要编译完整的模型;取而代之的是编译重复模块 nn.Modules,如 Transformer 层。这可以减少编译延迟,同时只会造成百分之个位数的性能损失。TorchInductor CPU 后端也进行了多项优化。

 

Flight Recorder是一个新的调试工具,用于解决作业卡住的问题。分布式训练过程中可能会出现作业卡住的情况,其根本原因可能有很多,包括数据饥饿、网络问题或软件 Bug。Flight Recorder 使用内存循环缓冲区来捕获诊断信息。当检测到作业卡住时,它会将诊断信息转储到文件中;然后,可以使用启发式脚本对数据进行分析,找出根本原因。

 

在 Reddit 上关于该版本的讨论中,许多用户很高兴看到PyTorch对英特尔GPU的支持,称其为 “游戏规则的改变者”。另一位用户写道

很高兴看到 torch.compile 有了改进,尤其是重用重复模块以加快编译速度的功能。对于拥有大量类似组件的大型模型来说,这可能会改变游戏的规则。FlexAttention API 看起来也很有前景——只需几行代码就能实现各种注意力机制,并获得几乎可以媲美手写代码的性能,这实在是太棒了。感谢 PyTorch 团队和贡献者们又发布了一个出色的版本!


感兴趣的读者可以从 GitHub 上获取 PyTorch 2.5 的代码和发布说明。 

 

原文链接:

https://www.infoq.com/news/2024/10/pytorch-25-release/

2024-11-19 10:336846

评论

发布
暂无评论
发现更多内容

总结分析组件化漏洞产生的原理

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞分析

2021 年最新版,阿里巴巴 / 今日头条 / 京东 Java 面经大合集(含答案)

Java 编程 面试 IT 计算机

阿里 Java 面试爆出内幕?十万字内部面试题总结(2021合格版)全网开源!

Java 编程 程序员 架构 IT

神啦!最全“Java面试宝典+Java核心知识集”,一箭双雕杠秋招

Java 程序员 架构 面试 IT

同事吃透了这份“阿里 Java 面试核心知识手册”6月份居然斩获 11 张大厂 Offer!

Java 编程 架构 面试 IT

迈入 8K 时代,AI 驱动超高清 “视” 界到来

阿里云CloudImagine

阿里云 高清视频 视频处理 视频制作 视频云

高防服务器在使用过程中可以做到高效、稳定的防止钓鱼攻击

九河云安全

支付通道接口异常统计上报

try catch

Java 失败上报

我是一个下「笨功夫」的人

非著名程序员

个人成长 认知提升 个人提升 8月日更

从平台到生态,钉钉、飞书和企业微信的巨头之争

ToB行业头条

钉钉 企业微信 飞书

企业架构概述

涛哥 数字产品和业务架构

链路压测中的支路问题初探

FunTester

性能测试 测试框架 压力测试 全链路压测 测试开发

我终于在六月份实现了跳槽九连杀:字节跳动 Java 研发岗

Java 编程 面试 IT 计算机

站在巅峰的阿里面试参考指南!居然能让我成功拿下 12 家大厂 offer?

Java 程序员 架构 面试 IT

为了彻底搞懂 hashCode,我钻了一下 JDK 的源码

沉默王二

Java

保险污名化?区块链赋予保险的「四个机会」

CECBC

涨薪 150%,从小厂逆袭,坐上美团 L8 技术专家(面经 + 心得)

Java 编程 程序员 架构 IT

什么是通证经济?它和区块链又有什么关系呢?

CECBC

合并两个有序数组

Memorys

Java 面试 算法

如何利用 Apache APISX 提升 Nginx 的可观测性

API7.ai 技术团队

nginx 开源 网关 APISIX

AlertManager 告警发送频率探究

greatersecurity

解读区块链技术在中小企业中的4种常见用例

CECBC

2021 年云安全:基本工具和最佳实践业务指南

九河云安全

七牛云霍锴:实时音视频 SDK 设计实践

七牛云

七牛云存储 音视频 ECUG

入职那天“直接起飞”!双非渣本后端,两个月逆袭字节?

Java 编程 程序员 面试 计算机

在小厂工作三年的程序员喊话大厂:Java 中高级岗面试为何越来越难?

Java 程序员 架构 面试 IT

三年豹变!拥抱Z时代,UDE迈向消费电子国际大展

科技热闻

保险=诈骗?区块链赋予保险的“四个机会”

旺链科技

区块链 保险业 信任构建

IOS技术分享| 互动连麦场景实现

anyRTC开发者

ios 音视频 移动开发 视频直播 直播连麦

浪潮云洲智造直播间,继续开讲!

云计算

针对不同场景的Python合并多个Excel方法

Python研究者

Python Excel 8月日更

PyTorch 2.5发布,支持英特尔GPU_编程语言_Anthony Alford_InfoQ精选文章