QCon北京|3天沉浸式学习,跳出信息茧房。 了解详情
写点什么

PyTorch 2.5 发布,支持英特尔 GPU

  • 2024-11-19
    北京
  • 本文字数:1171 字

    阅读完需:约 4 分钟

大小:553.44K时长:03:08
PyTorch 2.5发布,支持英特尔GPU

最近,PyTorch 基金会发布了PyTorch 2.5版本,其中包含对英特尔 GPU 的支持。该版本还包含多项性能增强,如FlexAttentionAPI、TorchInductor CPU 后端优化,以及可缩短编译时间的区域编译功能。总体而言,该版本包含了自 PyTorch 2.4 以来的 4095 次提交。

 

最近举行的PyTorch大会演示了 PyTorch 对英特尔 GPU 的支持。英特尔工程师 Eikan Wang 和 Min Jean Cho 介绍了 PyTorch 为支持该硬件而做出的改变,包括泛化 PyTorch 运行时和设备层,使其更容易与新的硬件后端集成。此外,对于 torch.compile 和 torch.distributed,该版本实现了特定于英特尔 GPU 的后端。英特尔人工智能框架工程副总裁Kismat Singh表示


我们在 PyTorch 2.5 中添加了对英特尔客户端 GPU 的支持。基本上,这意味着你可以在使用最新英特尔处理器的英特尔笔记本电脑和台式机上运行 PyTorch。我们认为,这将在今年为 PyTorch 用户解锁 4000 万台笔记本电脑和台式机,预计到明年年底这一数值将达到 1 亿左右。


该版本新增了 FlexAttention API,它使 PyTorch 用户更容易在其模型中尝试不同的注意力机制。通常情况下,想要尝试新的注意力机制变体,研究人员需要直接在 PyTorch 算子中手动编码。然而,这可能会导致 “运行时缓慢和 CUDA OOM”。有了该 API,用户只需要编写 “几行惯用的 PyTorch 代码”就可以完成这项工作。然后,编译器会将这些代码转换为最优内核,“不会产生任何额外的内存开销,而性能可与手写内核相媲美”。

 

有多项性能改进尚处于 Beta 测试阶段。新增的后端 Fused Flash Attention 在英伟达 H100 GPU 上 “比 FlashAttentionV2 快 75%”。torch.compile 的区域编译功能不再需要编译完整的模型;取而代之的是编译重复模块 nn.Modules,如 Transformer 层。这可以减少编译延迟,同时只会造成百分之个位数的性能损失。TorchInductor CPU 后端也进行了多项优化。

 

Flight Recorder是一个新的调试工具,用于解决作业卡住的问题。分布式训练过程中可能会出现作业卡住的情况,其根本原因可能有很多,包括数据饥饿、网络问题或软件 Bug。Flight Recorder 使用内存循环缓冲区来捕获诊断信息。当检测到作业卡住时,它会将诊断信息转储到文件中;然后,可以使用启发式脚本对数据进行分析,找出根本原因。

 

在 Reddit 上关于该版本的讨论中,许多用户很高兴看到PyTorch对英特尔GPU的支持,称其为 “游戏规则的改变者”。另一位用户写道

很高兴看到 torch.compile 有了改进,尤其是重用重复模块以加快编译速度的功能。对于拥有大量类似组件的大型模型来说,这可能会改变游戏的规则。FlexAttention API 看起来也很有前景——只需几行代码就能实现各种注意力机制,并获得几乎可以媲美手写代码的性能,这实在是太棒了。感谢 PyTorch 团队和贡献者们又发布了一个出色的版本!


感兴趣的读者可以从 GitHub 上获取 PyTorch 2.5 的代码和发布说明。 

 

原文链接:

https://www.infoq.com/news/2024/10/pytorch-25-release/

2024-11-19 10:336800

评论

发布
暂无评论
发现更多内容

15 分钟带你感受 CSS :has() 选择器的强大

EquatorCoco

CSS 前端

全栈开发与自动化测试高薪私教班,手把手带你拿到高薪Offer

测试人

软件测试

软件测试学习笔记丨Allure2报告中添加用例描述

测试人

软件测试

solana链狙击机器人

区块链技术

你在测试金字塔的哪一层(下)

禅道项目管理

软件开发 单元测试 集成测试 自动化测试 测试金字塔

强健“伙伴+华为”体系,释放新信号与新课题

新消费日报

【官宣】2024 DTC数据技术嘉年华全议程发布:汇聚行业精英,共襄年度盛宴

墨天轮

MySQL 数据库 oracle postgresql 国产化

LLM大模型推理加速:技术解析与实践

百度开发者中心

人工智能 大模型 LLM

SDN与SD-WAN的定义和区别

Ogcloud

SD-WAN SDN架构 SDN网络 SD-WAN组网 SDWAN

低代码平台与传统软件开发方法的比较

天津汇柏科技有限公司

软件开发、 低代码开发 软件开发定制

如何应用生成式AI打造制造业增长新引擎

财见

说一说Java中的四种引用类型?

快乐非自愿限量之名

Java 开发 引用

离散型制造业生产管理MES系统

万界星空科技

制造业 mes 万界星空科技 离散型制造业

数智时代“通关攻略”,开天aPaaS驱动千行万业创新提速

华为云开发者联盟

云计算 华为云 华为云开发者联盟 河图KooMap AppStage

天津等保测评机构公司名单看这里!

行云管家

等保 等级保护 天津

全栈开发与自动化测试高薪私教班,手把手带你拿到高薪Offer

霍格沃兹测试开发学社

在Python中使用Kafka帮助我们处理数据

技术冰糖葫芦

API 接口 API 测试

利用云手机技术,开拓海外社交市场

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 社交营销

利用云手机高效运营多个海外社媒账户

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 社媒运营

Solidigm亮相中国闪存市场峰会: 丰富产品组合打造AI时代存力底座

E科讯

又一游戏巨头入局 Web3!Footprint Analytics 助力 NHN 旗下 Pebble 实现数字化运营

Footprint Analytics

链游 #Web3

.NET分布式Orleans - 2 - Grain的通信原理与定义

不在线第一只蜗牛

.net 分布式 WPF

离散型制造业的特点与万界星空科技低代码MES系统

万界星空科技

工业互联网 制造业 mes 万界星空科技

NFTScan | 03.18~03.24 NFT 市场热点汇总

NFT Research

NFT\ NFTScan

TorchAcc:基于 TorchXLA 的分布式训练框架

阿里云大数据AI技术

人工智能 机器学习 分布式 模型训练 大模型

DB-GPT:生产级大模型部署的思考与实践

百度开发者中心

人工智能 自然语言处理 大模型

走在前、做示范,苏州农商银行携华为云完成超级网银系统改造

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

PyTorch 2.5发布,支持英特尔GPU_编程语言_Anthony Alford_InfoQ精选文章