写点什么

谷歌称 TensorFlow 的 OpenCL 可以将推理性能提高一倍

  • 2020-08-21
  • 本文字数:1035 字

    阅读完需:约 3 分钟

谷歌称 TensorFlow 的 OpenCL 可以将推理性能提高一倍

本文最初发表于 venturebeat,由 InfoQ 中文站翻译并分享。


Google 日前 发布了一款基于 OpenCL 的移动 GPU 推理引擎,用于 Android 上的 TensorFlow 框架。它现在可以在最新版本的 TensorFlow Lite库中使用,该公司声称,它提供了一个比现有的 OpenGL 后端加速两倍的“合理大小”的人工智能模型。


OpenGL 已有近三十年的历史,是一个平台无关的 API,用于渲染 2D 和 3D 矢量图形。OpenGL ES 3.1 增加了计算着色器,但 TensorFlow 团队表示,向后兼容的设计决策限制了它们充分发挥设备 GPU 的全部潜力。另一方面,OpenCL 从一开始就是为各种加速器的计算而设计的,因此与移动 GPU 推理领域更相关。这激发了 TensorFlow 团队对基于 OpenCL 的移动推理引擎的研究并最终采用。


新的 TensorFlow 推理引擎提供了一个优化器,可以选择合适的工作组规模来提高性能,从而在高通(Qualcomm)的 Adreno GPU 等硬件上比平均速度提高了 50%。它原生支持 FP16,并且需要加速器来指定数据类型的可用性,通过加速算法计算来减少内存和带宽的使用以及训练时间。(Google 指出,由于 FP16 的支持,某些较旧的 GPU,如大约 2012 年上市的 Adreno 305,现在可以以其全部能力运行了。)另外,OpenCL 能够通过物理常量内存保持协同,从而大大超过 OpenGL 的性能。物理常量内存是像 Adreno GPU 这样的芯片中的一项硬件功能,为存储常量数组和变量保留了 RAM。



在一次基准测试中,TensorFlow 团队将所谓的神经架构搜索系统 MNASNet 1.3 的延迟从基于 OpenGL 的后端在 Vivo Z3 上超过 100 毫秒降低到使用 OpenCL 替代方案的 25 毫秒。在另一项使用目标检测算法 SSD MobileNet v3 的测试中,该团队将华为 Mate 20 的延迟从近 100 毫秒降低到 25 毫秒以下。



Google 指出,OpenCL 并非标准 Android 发行版的一部分,因此一些用户无法使用它。作为一种权宜之计,TensorFlow Lite 现在可以在运行时检查 OpenCL 的可用性,这样,如果它不可用或无法加载,那么库就会退回到旧的 OpenGL 后端。


TensorFlow 软件工程师 Juhyun Lee 和 Raman Sarokin 在博文中写道:“当 TensorFlow Lite GPU 团队不断改进现有的基于 OpenCL 的移动 GPU 推理引擎时,我们也在研究其他技术。OpenCL 带来了很多特性,让我们可以优化我们的移动 GPU 推理引擎。”


作者介绍:


Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2020/08/17/google-claims-tensorflows-new-opencl-inference-backend-can-double-performance/


2020-08-21 14:242737
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 545.7 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

Portraiture4.0版本最新永久免费版下载

茶色酒

Portraiture2023 Portraiture

泼辣修图2023永久版安装包下载

茶色酒

泼辣修图2023

毕业项目 - 设计电商秒杀系统

in9

为什么放弃Vim而选择Neovim?

Jackpop

JUC 常用 4 大并发工具类

鱼找水需要时间

Java spring JUC

CleanMyMac2023知名MAC电脑清理软件

茶色酒

CleanMyMac X

软件测试/测试开发 | 测试环境搭建

测试人

软件测试 自动化测试 测试开发 测试环境

2023汉化和谐版camtasia电脑屏幕录制软件

茶色酒

Camtasia Studio2023

Java学习路线阅读计划时间线

kcodez

后端开发 Java 开发

软件测试/测试开发 | web前端的HTML浅析

测试人

软件测试 自动化测试 测试开发 web测试

FLStudio2023水果中文版软件如何下载?

茶色酒

flstudio FLStudio21

大型软件开发集成类项目管理思路

Geek_37rwst

项目管理 大型软件开发 管理思路

下一代Jupyter Notebook?也太好用了吧!

Jackpop

这才是机器学习正确高效的学习路线!

Jackpop

效率倍增!VS Code瞬间好用多了

Jackpop

「AVL平衡树专项」带你领略常用的AVL树与红黑树的奥秘(规则篇)

C++后台开发

数据结构 后端开发 红黑树 linux开发 C++开发

parallels desktop18新许可证和升级

茶色酒

parallels desktop18

寄存器和移位寄存器分析与建模

timerring

FPGA

基于Magma构建灵活、低成本无线接入网

俞凡

架构 网络 通信

ABBYY FineReader16最新版本更新下载

茶色酒

ABBYY FineReader16 ABBYY16

模块五作业

程序员小张

「架构实战营」

硬核!互联网资深大佬手码2023版高并发编程速成笔记涵盖了并发编程的所有骚操作

Java永远的神

程序员 面试 后端 高并发 架构师

架构训练营模块六作业-拆分电商系统为微服务

张Dave

Java高手速成 | EL表达式语言

TiAmo

Java EL

什么是可演进架构

agnostic

人工智能可能是创业最后的末班车

felix

人工智能 创业 互联网 中小企业

同时踩下刹车和油门:英特尔的“精神内耗”

脑极体

芯片 英特尔

Python新手太需要了,这5个做题练习网站爱了!

Jackpop

Go应用服务疑似内存泄露问题排查

SFLYQ

Go 容器 内存溢出

Nostr 协议详解(科普篇)

Rayjun

分布式 nostr

设计模式之模板模式

程序员大彬

设计模式

谷歌称 TensorFlow 的 OpenCL 可以将推理性能提高一倍_AI&大模型_Kyle Wiggers_InfoQ精选文章