PyTorch 2.5发布，支持英特尔GPU_编程语言_Anthony Alford



 写点什么

登录/注册



大小：553.44K时长：03:08

最近，PyTorch 基金会发布了PyTorch 2.5版本，其中包含对英特尔 GPU 的支持。该版本还包含多项性能增强，如FlexAttentionAPI、TorchInductor CPU 后端优化，以及可缩短编译时间的区域编译功能。总体而言，该版本包含了自 PyTorch 2.4 以来的 4095 次提交。

最近举行的PyTorch大会演示了 PyTorch 对英特尔 GPU 的支持。英特尔工程师 Eikan Wang 和 Min Jean Cho 介绍了 PyTorch 为支持该硬件而做出的改变，包括泛化 PyTorch 运行时和设备层，使其更容易与新的硬件后端集成。此外，对于 torch.compile 和 torch.distributed，该版本实现了特定于英特尔 GPU 的后端。英特尔人工智能框架工程副总裁Kismat Singh表示：

我们在 PyTorch 2.5 中添加了对英特尔客户端 GPU 的支持。基本上，这意味着你可以在使用最新英特尔处理器的英特尔笔记本电脑和台式机上运行 PyTorch。我们认为，这将在今年为 PyTorch 用户解锁 4000 万台笔记本电脑和台式机，预计到明年年底这一数值将达到 1 亿左右。

该版本新增了 FlexAttention API，它使 PyTorch 用户更容易在其模型中尝试不同的注意力机制。通常情况下，想要尝试新的注意力机制变体，研究人员需要直接在 PyTorch 算子中手动编码。然而，这可能会导致 “运行时缓慢和 CUDA OOM”。有了该 API，用户只需要编写 “几行惯用的 PyTorch 代码”就可以完成这项工作。然后，编译器会将这些代码转换为最优内核，“不会产生任何额外的内存开销，而性能可与手写内核相媲美”。

有多项性能改进尚处于 Beta 测试阶段。新增的后端 Fused Flash Attention 在英伟达 H100 GPU 上 “比 FlashAttentionV2 快 75%”。torch.compile 的区域编译功能不再需要编译完整的模型；取而代之的是编译重复模块 nn.Modules，如 Transformer 层。这可以减少编译延迟，同时只会造成百分之个位数的性能损失。TorchInductor CPU 后端也进行了多项优化。

Flight Recorder是一个新的调试工具，用于解决作业卡住的问题。分布式训练过程中可能会出现作业卡住的情况，其根本原因可能有很多，包括数据饥饿、网络问题或软件 Bug。Flight Recorder 使用内存循环缓冲区来捕获诊断信息。当检测到作业卡住时，它会将诊断信息转储到文件中；然后，可以使用启发式脚本对数据进行分析，找出根本原因。

在 Reddit 上关于该版本的讨论中，许多用户很高兴看到PyTorch对英特尔GPU的支持，称其为 “游戏规则的改变者”。另一位用户写道：

很高兴看到 torch.compile 有了改进，尤其是重用重复模块以加快编译速度的功能。对于拥有大量类似组件的大型模型来说，这可能会改变游戏的规则。FlexAttention API 看起来也很有前景——只需几行代码就能实现各种注意力机制，并获得几乎可以媲美手写代码的性能，这实在是太棒了。感谢 PyTorch 团队和贡献者们又发布了一个出色的版本！

感兴趣的读者可以从 GitHub 上获取 PyTorch 2.5 的代码和发布说明。

原文链接：

https://www.infoq.com/news/2024/10/pytorch-25-release/

创作场景

PyTorch 2.5 发布，支持英特尔 GPU

评论

跨境出海战略全景图：2025从0到1的完整路径与核心决策点

网络安全防护措施之等保测评是什么？

快递鸟打印电子面单 API 深度解析：技术文档对接指南

新晋社区之星何晨阳：从使用者到贡献者，我是如何理解并反哺开源？

从工具逻辑到架构思维：企业级低代码的演进与重塑

评估工程正成为下一轮 Agent 演进的重点

怎么把Figma导入Photoshop？详细的文件转换指南来了！

过程控制硬件维护经验总结（6）

事半功倍：.NET 开发者的 Visual Studio 效率技巧！

阿里面试题思路解析-高并发场景下的JVM调优实战

聚势AI，赋能企业穿越周期稳增长：「AI 共创三生万物」司马阅2025企业AI落地应用峰会北京站圆满收官

多云架构时代：解码企业网络安全的全新基因

护航“苏超”票务稳健运行！这朵云，靠谱！

专家管理系统

Redis 搭建主从复用-主备切换

过程控制硬件维护经验总结（7）

火山引擎多模态数据湖解决方案，以新一代数据基座迎接AI Agent时代

中小企业 RPA 选型的 3个真相和 7个落地步骤

政府机关如何选购RFID智能钥匙柜保障使用留痕？

Ovi：双骨干跨模态融合的音频-视频生成技术详解

火山引擎发布Data Agent新能力，推动用户洞察进入“智能3.0时代”

为什么要做等保？黑龙江等保测评服务的核心目标

AI 时代的数据库进化论 —— 从向量到混合检索

用Dify搭建自动化工作流，每天节省3小时

从流媒体机制看：如何高效、安全地保存推特/X视频

使用gdb调试core文件

电子签唯一入选企业！e签宝上线浙江省海外综合服务平台，助力浙江建设高能级开放强省

黑龙江企业必看！哪些信息系统需要做等保测评？

以“AI+专识+多智能体”为核心思路，暖哇科技专识库支撑理赔自动化率提至80%

ngx.location.capture()变量继承

别再选错！5分钟掌握AI Agent框架选型的方法

创作场景

PyTorch 2.5 发布，支持英特尔 GPU

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载