立即领取|华润集团、宁德核电、东风岚图等 20+ 标杆企业数字化人才培养实践案例 了解详情
写点什么

旷视天元 MegEngine 开源 CUDA INT4 量化源码实现

  • 2022-09-05
    北京
  • 本文字数:889 字

    阅读完需:约 3 分钟

旷视天元MegEngine开源 CUDA INT4 量化源码实现

当下人工智能技术正加速发展,渗透到云、边、端和应用的各个层面,与海量 IoT 设备进行深度融合,不断拓展应用场景。然而在 AIoT 场景中,嵌入式设备往往算力有限,难以承载庞大的 AI 模型。如何在资源有限的终端场景实现 AI 模型的有效部署,是加速 AI 落地的重要问题。


AI 工程师们研发了各种试图缩小模型大小并保持性能的办法,例如量化和蒸馏。其中,模型量化是将浮点计算转成低比特定点计算的一种模型压缩技术,可以有效减少模型算力消耗并提升计算速度,当前已经在工业界发展比较成熟。


目前相对成熟的模型量化方案是 INT8 量化。以 ResNet-50 模型为例,原本需要用 float 32 表示的权重,量化后只需要使用  INT8 表示,通过这样的处理,模型体积可以减少到原来的 1/2,再加上 TensorCore 的加持,还会有近 8 倍的网络加速。而如果更进一步,将模型用 INT4 表示,可以带来更多的速度提升。


为了推动低比特量化技术的发展,旷视天元MegEngine 团队开源了 INT4 的源码实现,这也让 MegEngine 成为首个开源 CUDA INT4 源码实现的深度学习框架


MegEngine采用均匀线性量化方案,实现了非对称量化和对称量化两种 INT4 的数据类型,同时通过算子融合优化、kernel 优化等方法,使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以 ResNet-50 为例,INT4 相比 INT8 有 1.3 倍的加速。


具体代码实现可以访问 GitHub 链接(https://github.com/MegEngine/examples)了解详情。


随着 CUDA INT4 的开源,目前 MegEngine 框架不仅支持浮点数 FP32 和 FP16,而且支持 INT8 和 INT4 的对称和非对称量化推理。


此外,MegEngine 框架开发了诸多工具,帮助用户提升模型推理性能、简化部署流程,包括自动代码裁剪功能,支持用户全自动的针对算子进行代码裁剪;TracedModule 方案以及 MegEngine Lite,基于旷视业务打磨出的模型推理最佳实践,化解模型转换部署难题;流程管理工具 FastRun, 可以为每个计算自动选择最快的算法,从而保证整个网络的运行时间最短,让 MegEngine 用户运行不同的网络时都能收获最好性能。


据悉,自开源以来,MegEngine 不断优化,已先后发布 29 个版本,推出一系列实用功能,降低 AI 算法生产门槛,助力 AI 应用快速落地。

2022-09-05 19:595283
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 530.2 次阅读, 收获喜欢 1975 次。

关注

评论

发布
暂无评论
发现更多内容

Vue3必会技巧-自定义Hooks

yyds2026

Vue

ha集群是什么意思?一般有几个节点?

行云管家

高可用 ha ha集群

Navicat!OceanBase社区版新朋友来啦!

OceanBase 数据库

数据库 oceanbase

事关紧急!每个运维人员都应该了解的工作

嘉为蓝鲸

自动化运维 嘉为蓝鲸 AD防护

React组件复用的发展史

夏天的味道123

React

Vue中的diff算法深度解析

yyds2026

Vue

2022年11月国产数据库大事记-墨天轮

墨天轮

数据库 tdsql 国产数据库 达梦 polarDB

Webpack完整打包流程分析

Geek_02d948

webpack

ui设计网站:全网最热门的30个UI设计网站合集

uimaker

UI GUI设计

保驾护航,嘉为蓝鲸助力某科技公司AD域故障恢复实记

嘉为蓝鲸

AD 自动化运维 嘉为蓝鲸

Java程序员开发3年如何能拿到年薪40W?(强烈推荐涨薪必备)

钟奕礼

Java 程序员 java面试 java编程

Webpack插件核心原理

Geek_02d948

webpack

《中国指标中台市场研究报告》线上发布会

Kyligence

数据分析 指标中台

Jvm上如何运行其他语言?JSR223规范最详细讲解

架构师之道

Java JVM

Webpack中的高级特性

Geek_02d948

webpack

人保科技:自动化运维场景在数据中心的落地之网络策略自动化管理

嘉为蓝鲸

自动化管理 自动化运维 嘉为蓝鲸

React组件复用的技巧

夏天的味道123

React

1业务架构作业

梁山伯

龙蜥大讲堂12月预告来了!来自统信软件、移动云和浪潮信息等多位技术专家在线分享

OpenAnolis小助手

ebpf 移动云 龙蜥大讲堂 直播预告 统信软件

内测分享:如何把小程序游戏运行到自有 App 中?(IOS 篇)

FN0

游戏 小程序游戏开发

React组件设计模式-纯组件,函数组件,高阶组件

xiaofeng

React

React高级特性之Context

夏天的味道123

React

2023年北京企业办理备案流程详解

行云管家

等保 等保备案 北京

高性能数据访问中间件 OBProxy(七):安全、协议和监控

OceanBase 数据库

数据库 oceanbase

React组件通信

xiaofeng

React

软件项目管理工具 PingCode 入选2022年度企服口碑产品TOP36——36氪

爱吃小舅的鱼

Vue3知识点之数据侦测

yyds2026

Vue

React核心工作原理

xiaofeng

React

还在写代码处理映射关系? 动动手指,MatrixDB 4.4 轻松让 JSON 入表!

YMatrix 超融合数据库

kafka 产品发布 超融合数据库 YMatrix MatrixGate

5年经验年薪百万,一位阿里P8分享自己的成长干货

钟奕礼

Java java面试 java编程 程序员、

阿里p8私藏MyBatis笔记,从入门到精通,纵享源码细节

钟奕礼

Java 程序员 java面试 java编程

旷视天元MegEngine开源 CUDA INT4 量化源码实现_AI&大模型_刘燕_InfoQ精选文章