写点什么

NVIDIA 发布新的 C++ 数值计算库:支持 GPU 加速

  • 2023-11-15
    北京
  • 本文字数:843 字

    阅读完需:约 3 分钟

大小:385.53K时长:02:11
NVIDIA发布新的C++数值计算库:支持GPU加速

 MatX 是一个 C++ 库由 Nvidia 为其自有的 GPU 开发,,旨在使用高级语法在数值计算中实现接近本地性能,不遑多让于 Python 的 scipy 或 MATLAB。它的最新版本引入了许多新功能,包括可以将变换作为运算符,以及新的运算符,如上采样、下采样、pwelch 等等。

 

现在,可以在任何运算符表达式中使用变换,以使用运算符融合来进行延迟评估。运算符融合是 MatX 中的一个特殊功能,旨在提高性能,通过减少内存访问,从而避免内存访问成本相对寄存器访问昂贵数个数量级的问题。

 

旨在通过减少内存访问来提高性能,内存访问的成本可能比寄存器访问高出几个数量级。使用运算符融合,一个表达式不会立即计算,而是转换为表示该表达式的 C++ 类型,该类型将在需要其值时进行评估。换句话说,不是立即计算表达式的结果,比如:

 

(A = B * (cos(C) / D)).run();
复制代码

 

你可以将其值存储在一个中间表达式中:

 

auto op = (B * (cos(C) / D));
复制代码

 

将其与其他表达式组合,并在需要时进行延迟评估。这一特性是通过重载 C++ 运算符实现的。MatX 的最新版本将这一功能扩展到了变换中,例如在以下表达式中:

 

(A = B * fft(C)).run();
复制代码

 

编译器能够理解乘法运算符的右侧是 FFT 变换,而左侧是另一个表达式,可以在编译时与前者的结果进行融合

 

值得注意的是,将变换用作运算符的这种新语法与以前的变换使用方式存在一些不兼容。具体而言,以前你可能会写成matmul(C, A, B, stream),而现在应该使用(C = matmul(A,B)).run(stream)

 

MatX 0.6.0 引入的另一个新功能是新的多相通道化运算符,它可以将输入信号分成一组通道。例如,它可用于将高采样率的宽带信号转换为多个低采样率的窄带信号。

 

新的运算符包括 `upsample`,用于通过插入零来上采样信号;downsample,用于通过丢弃样本来下采样信号;pwelch,用于可视化信号的频谱,而无需进行预处理。

 

MatX 的最新版本拥有更多功能,此处无法详尽列出。如果你对完整细节感兴趣,不要错过官方发布说明。

 

原文链接:

https://www.infoq.com/news/2023/10/Nvidia-matx-cpp-numerical-lib/

2023-11-15 08:004775

评论

发布
暂无评论
发现更多内容

华为校园鸿蒙公开课走进南京大学

Geek_2d6073

一文告诉你服务器为什么要托管?

Finovy Cloud

云服务器 IDC 服务器托管

干货盘点!市场调查与分析必备的10个模板!

彭宏豪95

职场 在线白板 行业调研 效率软件 调研报告

图数据库基准测试 LDBC SNB 系列讲解:Schema 和数据生成的机制

不在线第一只蜗牛

数据库 LDBC

Navicat for SQLite 16 for Mac(强大数据库管理及开发工具) v16.3.7中文版

iMac小白

利用Nginx正向代理实现局域网电脑访问外网

EquatorCoco

php nginx 服务器 局域网

读取速率十倍于 Elasticsearch,TDengine 在知轮科技智慧轮胎系统中的应用

TDengine

提升跨境直播体验,选择适用的直播专线

Ogcloud

海外直播专线 海外直播 跨境直播 跨境直播专线

深入了解 Linux 常用性能统计命令

霍格沃兹测试开发学社

游戏发行新方式——游戏海外发行代理

Ogcloud

游戏 云游戏 游戏发行 游戏发行公司

HStream Webinar: 兼容 Kafka 协议的下一代流数据平台

EMQ映云科技

kafka mqtt

走进AI新时代:织信低代码的实践与启示

优秀

AI 低代码 AI智能

“打工人”的自我修养-如何在30秒内把“问题”讲清楚

K

原创 职场 认知 逻辑

与鲸同行,智领未来!和鲸科技高校市场渠道合作伙伴正式开启招募

ModelWhale

人工智能 数据科学 渠道

活动预告:如何培养高质量应用型医学人才?

ModelWhale

数据分析 人才培养 R语言 临床医学 新医科

1688API接口推荐:1688工厂档案信息数据接口

tbapi

1688 1688API接口 1688工厂档案信息

RocketMQ为什么这么快?我从源码中扒出了10大原因!

不在线第一只蜗牛

源码 RocketMQ

Prompt进阶3:LangGPT(构建高性能质量Prompt策略和技巧2)--稳定高质量文案生成器

汀丶人工智能

prompt 工程

程序员来看,你选哪一门编程语言提升自己?

高端章鱼哥

TikTok直播畅通无阻,海外直播专线打造稳定流畅的网络环境

Ogcloud

TikTok 海外直播专线 海外直播 tiktok直播 tiktok直播专线

一文搞懂Vue的MVVM模式与双向绑定

EquatorCoco

Java vue.js Vue

15 年云数据库老兵DuckDB CEO:数据库圈应告别“唯性能论”

酷克数据HashData

Prompt进阶2:LangGPT(构建高性能Prompt策略和技巧)--最佳实践指南

汀丶人工智能

prompt 工程 Prompt Engineering

用Python编写自己的微型Redis

快乐非自愿限量之名

Python redis

开源LLM大模型聊天

百度开发者中心

人工智能 大模型 问答助手

NVIDIA发布新的C++数值计算库:支持GPU加速_编程语言_Sergio De Simone_InfoQ精选文章