写点什么

英特尔发布 nGraph 编译器堆栈 Beta 版本,性能可提升 45 倍

  • 2018-12-04
  • 本文字数:1236 字

    阅读完需:约 4 分钟

英特尔发布nGraph编译器堆栈Beta版本,性能可提升45倍

深度学习计算性能对于科学家和工程师来说至关重要,他们需要利用深度学习技术来应对医疗、上午、自动驾驶等诸多领域的挑战。这也是英特尔今年 3 月份将 nGraph 库和编译器的早期版本在 GitHub 上开源的原因。 我们很早就清楚地看到,开放标准和互操作性的横向协作对于帮助科学家和工程师在各自领域实现下一波突破至关重要。英特尔内部的很多研究人员已经开始使用 nGraph 探索更前沿的 AI 话题,比如使用同态加密使基于私有数据的推理成为可能。


我们将在今天正式发布:nGraph编译器堆栈的Beta版本。这一版本侧重于加速英特尔®至强®可扩展处理器上的深度学习推理工作负载,并具有以下主要特性:


  • 为 TensorFlow、MXNet 和 ONNX 提供开箱即用的安装体验。

  • 对 TensorFlow 中可用的 20 个常见工作负载、MXNet 中的 18 个常见工作负载、ONNX 中的 14 个常见工作负载做了优化并对优化效果做了验证。

  • 支持Ubuntu 16.04(TensorFlow、MXNet 和 ONNX)和 MacOS X 13.x 版本(支持 TensorFlow 和 MXNet 构建)。


这一版本对已经在生产环境中广泛部署的一些常见工作负载均做了优化。这些工作负载涵盖了各种类型的深度学习,包括:


  • 图像识别和分割

  • 物体检测

  • 语言翻译

  • 语音生成和识别

  • 推荐系统

  • 对抗生成网络(GAN)

  • 强化学习


图1 使用nGraph对MXNet推理性能的提升效果


图 1 使用 nGraph 对 MXNet 推理性能的提升效果


在我们的测试中,优化后的工作负载最多可以比原生框架快 45 倍,并且我们期望通过下面描述的强大的模式匹配功能来提升其他工作负载的性能。


传统上,为了从硬件中获得更高的深度学习性能,用户必须等待硬件制造商创建并更新内核库,这些内核库能在“立即模式”执行接口中公开(有时需要手动调整)各个操作。虽然这些内核优化通常会带来惊人的性能提升,但它们往往是基于特定硬件的,这就预先消除了在非特定设备上优化的任何机会。通过匹配非特定设备和特定设备的优化,我们可以解锁更多性能提升的可能,这就是我们构建 nGraph 编译器的原因。



在我们发布的 Beta 版本中有许多关键特性:nGraph 是第一个同时支持训练和推理支持多个框架的图形编译器;它允许开发人员将同一概念模型或算法设计自由地用在不同硬件后端。 这些特性中的任何一个可能都已经足够好;综合起来,这些特性使开发人员确信他们的神经网络(NN)设计不仅可以不断扩展,而且还能适应各种变化因素。未来,适应性将变得越来越重要,对于开发人员来说,要提前猜到后续可能需要大量或复杂优化的机器学习问题的界限将越来越困难。


在我们计划于 2019 年 Q2 初发布的 Gold 版本中,我们将进一步扩大更多框架上工作负载的覆盖范围,包括对量化图和 Int8 格式的额外支持。我们设计 nGraph 编译器以支持不断增加的 AI 硬件列表,因此英特尔®Nervana™神经网络处理器和其他加速器的早期采用者将能够在整个 2019 年使用 nGraph 编译器进行测试。更多详细信息,请参阅我们的生态系统文档。我们建议你查阅我们的快速入门指南或下载最新版本的 nGraph,如果有任何反馈或评论,欢迎你在GitHub上告诉我们。


阅读英文原文:nGraph Compiler Stack–Beta Release



2018-12-04 13:451140
用户头像
蔡芳芳 InfoQ主编

发布了 801 篇内容, 共 558.0 次阅读, 收获喜欢 2791 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

【Redis技术专区】「优化案例」谈谈使用Redis慢查询日志以及Redis慢查询分析指南

洛神灬殇

redis 性能调优 慢查询

FPGA:硬件描述语言简介

timerring

FPGA

Portraiture2024汉化版磨皮插件下载

茶色酒

Portraiture2023 Portraiture

架构误区系列12:一切皆依赖云平台

agnostic

云计算 部署架构

CleanMyMac X2024汉化版安装包新增

茶色酒

CleanMyMac X CleanMyMac X2023

从员工批量离职中,认识管理的价值

石云升

极客时间 1月月更 技术领导力实战笔记

复习前端:前端安全

devpoint

CSRF xss攻击 前端安全

技术如何分担产品之忧?

石云升

极客时间 1月月更 技术领导力实战笔记

JSON.stringify() 的 5 使用场景

devpoint

JavaScript 前端开发 JSON格式化

精华推荐 | 【JVM深层系列】「GC底层调优系列」一文带你彻底加强夯实底层原理之GC垃圾回收技术的分析指南(GC原理透析)

洛神灬殇

Java JVM JVM原理 2023

复习前端:前端应掌握的网络知识

devpoint

OSI七层协议 http2 HTTPS协议加密

工信部电子标准院:龙蜥操作系统获评“优秀”

OpenAnolis小助手

工信部 开源项目 获奖 龙蜥操作系统 生态构建

极客时间运维进阶训练营第十二周作业

9527

万字长文搞懂产品模式和项目模式

俞凡

团队管理

如何快速优雅的用Know Streaming创建Topic

石臻臻的杂货铺

获取 topic等信息 后端、

技术管理者如何获得下属的认同?

石云升

极客时间 1月月更 技术领导力实战笔记

架构误区系列11:无聊的架构归一

agnostic

架构治理

水果软件2024FL Studio中文语言版本下载

茶色酒

FL Studio FL Studio 21

Studio One2024旗舰级DAW的跨版本升级

茶色酒

Studio One 5 Studio One2023

【Linux技术专题系列】「必备基础知识」一起探索和实践sftp配置之密钥方式登录

洛神灬殇

Linux SSH SSH工具 sftp

关于环境变量配置的思考总结

timerring

Go 环境变量

【PHP】英文博客专栏PHP快速入门个人笔记

懒时小窝

php

复习前端:JavaScript V8 引擎机制

devpoint

chrome JIT V8

开源移动核心网Magma架构设计启示

俞凡

架构 网络 通信

CleanMyMacX4.12.2最新版本更新下载

茶色酒

CleanMyMacX

2022年终总结-无所吊谓

wood

年终总结 稳定 开心 普通的一年

工作这么多年,我总结的数据传输对象 (DTO) 的最佳实践

JAVA旭阳

Java 架构

会声会影2023和谐版本补丁包下载

茶色酒

会声会影 会声会影2023

Kratos微服务框架API工程化指南

golang gRPC microservice Kratos 工程化

你知道哈希算法,但你知道一致性哈希吗?

JAVA旭阳

Java 架构

Python 内置界面开发框架 Tkinter入门篇 甲

eng八戒

Python GUI tkinter

英特尔发布nGraph编译器堆栈Beta版本,性能可提升45倍_硬件_Harry Kim_InfoQ精选文章