写点什么

TensorFlow 模型优化工具包增加新功能,可将深度学习模型缩小一半

  • 2019-08-07
  • 本文字数:1487 字

    阅读完需:约 5 分钟

TensorFlow模型优化工具包增加新功能,可将深度学习模型缩小一半

北京时间 8 月 7 日,TensorFlow 官方在 Medium 博客上更新了一篇文章,宣布为模型优化工具包添加了一项新功能:半精度浮点量化工具,据介绍,该工具能够在几乎不损失精度的情况下,将训练模型缩小一半,还能改善 CPU 和硬件加速器延迟。


TensorFlow 团队将训练后的半精度浮点量化作为模型优化工具包的一部分,这一套工具包括了混合量化,全整数量化和修剪等功能。


通过牺牲极少的精度,训练后的半精度浮点量化成功缩小了 TensorFlow Lite 模型的尺寸(高达 50%),并将模型常数(如权重和偏差值)从全精度浮点(32 位)为精度降低的浮点数据类型(IEEE FP16)。


训练后的半精度浮点是训练 TensorFlow Lite 模型的好工具,因为它对精度的影响极小并且模型尺寸显着减小。


感兴趣的读者可以点击这里查看相关文档,以便解不同的量化选项和方案。


降低精度的好处

降低精度有很多好处,特别是在部署到边缘时:


  • 模型尺寸减少 2 倍。模型中的所有常量值都存储在 16 位浮点数而不是 32 位浮点数中。由于这些常数值通常在整个模型尺寸中占主导地位,因此通常会将模型的尺寸减小约一半。

  • 精确度损失可忽略不计。深度学习模型经常能够在推理上产生良好的结果,同时使用比最初训练时更少的精度。在对几个模型的实验中,研发人员发现推理质量几乎没有损失(见下面的结果)。

尺寸缩小 2 倍,精度折衷可忽略不计

训练后的半精度浮点量化对精度的影响很小,但可以使深度学习模型的大小缩小约 2 倍。例如,以下是 MobileNet V1 和 V2 型号以及 MobileNet SSD 型号的一些结果。MobileNet v1 和 v2 的准确度结果基于ImageNet图像识别任务。在COCO对象识别任务上评估 SSD 模型。


模型准确性

通过将标准 Mobilenet float32 模型和 fp16 变体分别在:ILSVRC 2012 图像分类任务,以及 COCO 对象检测任务上进行了评估,研发人员得到了如下的结果:


如何启用后训练半精度浮点量化

开发者可以在 TensorFlow Lite 转换器上指定训练后的半精度浮点量化,方法是使用训练好的 float32 模型,将优化设置为 DEFAULT,并将目标规范支持的类型设置为半精度浮点常量:


import tensorflow as tf converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir) converter.optimizations = [tf.lite.Optimize.DEFAULT] converter.target_spec.supported_types = [tf.lite.constants.FLOAT16] Tflite_quanit_model = converter.convert()
复制代码


转换模型后即可直接运行,就像任何其他 TensorFlow Lite 模型一样。默认情况下,模型将通过将 16 位参数“上采样”为 32 位,然后在标准 32 位浮点运算中执行操作来在 CPU 上运行。


开发者还可以在 GPU 上运行模型。研发团队已经增强了 TensorFlow Lite GPU 代理,以接收精简参数并直接运行(不需要像在 CPU 上那样转换为 float32)。在应用程序中,开发者可以通过 TfLiteGpuDelegateCreate 功能创建GPU代理。指定代理的选项时,请务必设置 precision_loss_allowed 为 1:


//Prepare GPU delegate.  const TfLiteGpuDelegateOptions options = {    .metadata = NULL,    .compile_options = {      .precision_loss_allowed = 1, // FP16      .preferred_gl_object_type = TFLITE_GL_OBJECT_TYPE_FASTEST,      .dynamic_batch_enabled = 0, // Not fully functional yet    },  }; 
复制代码


有关 GPU 代理的概述,请参阅此链接:


https://medium.com/tensorflow/tensorflow-lite-now-faster-with-mobile-gpus-developer-preview-e15797e6dee7


查看使用半精度浮点量化的工作示例请点这里:


https://github.com/tensorflow/tensorflow/blob/master/tensorflow/lite/g3doc/performance/post_training_float16_quant.ipynb


2019-08-07 15:017095
用户头像
陈思 InfoQ编辑

发布了 584 篇内容, 共 308.6 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

深入剖析JVM的OOM | 内存溢出如何影响JVM运行及应对策略

码界西柚

Java 性能优化 JVM 内存优化

移动设备控制LED屏:无线技术与智能操作

Dylan

技术 电脑 设备 LED LED显示屏

企业架构设计原则之避免单行道

凌晞

企业架构 架构设计 架构设计原则

放心使用!龙蜥全系产品均不受 XZ 后门影响

OpenAnolis小助手

操作系统 漏洞 龙蜥社区 龙蜥操作系统

浪潮信息-龙蜥技术认证上线!实战培训 10 个名额,限量报名

OpenAnolis小助手

开源 操作系统 龙蜥社区

Amazon Q:对话智能赋能企业发展

亚马逊云科技 (Amazon Web Services)

#人工智能

倒计时4天!百度Create AI开发者大会“大模型与深度学习技术”论坛亮点抢鲜看!

百度安全

酷睿Ultra下一代预览,Lunar Lake有惊人的100TOPS

E科讯

高性能网络SIG月度动态:virtio 动态中断调节优化、多项内核网络缺陷修复

OpenAnolis小助手

操作系统 高性能网络 龙蜥社区SIG

企业架构设计原则之业务导向性

凌晞

企业架构 架构设计 架构设计原则

龙蜥社区及开发者分获 2024 OS2ATC“最具影响力开源创新贡献和开源创新先锋”奖

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区

@开发者,龙蜥社区邀您参加 2024 OceanBase 开发者大会

OpenAnolis小助手

开源 操作系统 OceanBase 开源 开发者大会

Anolis OS 23.1 Alpha2 预览版:内核配置升级与软件选型新进展

OpenAnolis小助手

开源 操作系统 龙蜥操作系统

查看自动类型推导结果的方法

爱分享

编辑器 代码规范 C++11 C++ modern C++

构建区块链质押挖矿系统:DApp质押挖矿系统开发需求详解

区块链软件开发推广运营

dapp开发 区块链开发 NFT开发 公链开发

​比特币 NFT 繁荣生态:深入了解 Runestone

NFT Research

NFT NFT\

思维导图网页制作!这8个常用软件不容错过。

彭宏豪95

效率工具 思维导图 在线白板 办公软件 思维导图软件

npm,registry,镜像源,npm切换源,yarn,cnpm,taobao,nrs

CoderBin

npm 镜像源 Node 切换镜像源 npm镜像源

C++ 解引用与函数基础:内存地址、调用方法及声明

小万哥

程序人生 编程语言 软件工程 C/C++ 后端开发

一款自研Python解释器

芯动大师

Cloud Kernel SIG 月度动态:ANCK 全面首次支持龙芯架构、海光四号处理器,以及适配兆芯等最新进展

OpenAnolis小助手

操作系统 内核 龙蜥社区 龙蜥sig

4 月15-18 日,龙蜥社区与你相约北美开源峰会

OpenAnolis小助手

开源 操作系统 EROFS 北美开源峰会

TensorFlow模型优化工具包增加新功能,可将深度学习模型缩小一半_AI&大模型_陈思_InfoQ精选文章