小米产品背后的AI技术实践分享-InfoQ



 写点什么

2020 年，小米发布了小米 10、Redmi K30 Pro 等系列产品，这些产品背后，AI 技术又是如何为小米赋能的？

在小米近期发布的小米 10 青春版手机上，小米手机官方表示该产品支持电影相机、拥有 AI 魔法分身的功能。此前，在 Redmi K30 Pro 旗舰新品发布会上，Redmi 小爱触屏音箱支持手势识别及童脸识别等功能，小米的自研技术不断赋能小米产品。本文就来探究近期小米发布的产品中，蕴藏了哪些 AI 技术。

AI 魔法分身功能

AI 魔法分身是小米 10 青春版的重磅产品，从字面意思就可以了解，AI 魔法分身可以在拍摄中实现多个人物同时存在，无需三脚架即可实现，操作简单易学。

AI 魔法分身功能是基于小米 AI 实验室的自研算法实现的，这一技术将 AI 视频目标检测算法、实时 SLAM 场景建模算法、AI 视频实时人像分割算法三大算法结合在一起，针对两段手持拍摄视频，实时逐帧进行对齐拼接，据悉，这是业界首创的 AI 视频对齐技术。

小米 AI 实验室视觉团队认为，创作+AI 是未来计算机视觉发展的重要趋势之一，通过将复杂的视频派件剪辑和创作过程引入创新的 AI 算法，实现一键的智能化操作。此前，Vlog 的智能运镜技术和 Mi 剪辑中的智能模块匹配都是这一理念的延续。后续，视觉团队将开发更多引领潮流的 AI 视频创作工具，为视频创作者提供便捷的服务。

AI 通话功能

AI 通话产品中，Android 端使用原生 Android APP 方式进行实现，该产品是系统级别的 APP，拥有较高的权限。Android 端通过接入小爱 SDK 的方式获得 AI 能力，包括 ASR、NLP、TTS 等。通过小爱 SDK 的能力可以轻松的实现人机对话。服务端使用小爱中控架构，垂域实现集成 NLP 模型使意图识别更准确、推荐语料更智能。

搭载 AI 通话功能的 MIUI 12 手机让聋哑人无障碍使用手机成为可能。在内测过程中，AI 通话收到了一些聋哑人外卖骑手的反馈，他们希望手机能够支持拨打电话功能，研发团队根据特定人群的具体诉求，在 AI 通话技术中实现了该项功能。用户可以自定义开场语、自由切换自动应答或手动回复，还可以定向自动接听，再也不会受到骚扰电话的影响。

运动健康功能

小米在几年前开始关注运动健康领域，此次 MIUI12 的运动模式识别功能的背后是小米自研的灵弦算法，是小米深度学习技术在运动健康领域的积累落地。运动模式识别本质上是分类，灵弦算法解决了移动设备装戴位置不同造成的识别干扰，保障了最终的用户体验。灵弦算法基于小米 MACE Micro 实现，不仅数据准确精度高，而且能耗低，一整天的耗电量小于 1%（以小米 10 为例，24 小时耗电量 9.6mAH ——数据经泰尔实验室测试认证）。

MACE Micro 是 2020 年小米针对小型、低功耗微控制器新增的 AI 引擎，微控制器使用场景多是只需要基本运算的家电和部分物联网设备，MACE Micro 的推出及应用，用以满足此类设备的超低功耗需求，MACE Micro 在可移植、速度、内存、存储等多个层面都具备较大优势。MACE Micro 不依赖于任何操作系统、文件系统以及运行时的支持，对算力密集型算子进行了访存优化，对模型数据进行了预处理，使得模型无需初始化即可运行推理，通过对模型的算子进行依赖分析，引入内存复用技术，大大减少了内存的占用，核心库存储占用非常小，同时引入 bf16 格式的支持，模型存储体积减小一半。

声控拍照功能

近年来，智能语音技术已经渗透到生活的各个角落中，人们使用智能语音功能来查看天气、定闹钟、打开 APP 等，而在语音交互中，免唤醒的快捷指令词因其即说即执行的高效交互特质而受到越来越多的关注，落地也更为广泛。MIUI12 开发版系统中，相机应用就支持了这样一个语音 AI 快捷指令词——声控拍照。打开这个开关后，只需要说两个字：“茄子”，或者“拍照”，相机应用就能自动完成拍摄，对比传统按快门键的方式，可控性更高、便捷性更强。

相机 AI 声控拍照功能，是小米 AI 实验室语音团队完全自研的语音算法。根据唤醒算法负责人庄伟基介绍，声控拍照使用的是 DNN-HMM 框架算法，基于深度学习的多指令词检测，在拍照场景去实时检测音频流中是否出现了预先设定的关键词，如果出现，则自动替用户完成“拍照”的操作，实现了语音即能免唤醒拍照的能力。算法准确性高、误唤醒低，并在不同场景、机型上都表现出了比较强的鲁棒性，高适应性，准确、快速、方便，极大地提高了拍照体验。语音团队也将持续预研在更多设备、场景下的快捷指令词，后续也将在小米系列设备中上线。

手势识别功能

手势是人们日常交流中非常重要的沟通方式，手指姿态的变换可以表达丰富的信息。手势识别功能则是通过人工智能这一工具，在人与机器之间架起了桥梁，使机器能看懂手势所传递的信息，为人机互动又增添了一种新的模式。

在手势识别的技术中，主要包括两个模块：手掌定位和手势分类。其中手掌定位算法负责从整个图像中将人的手部精准定位出来，然后将定位出来的手部区域输出给手势分类算法，由后者将手部的形状与我们熟悉的手势信息进行映射分类，从而使机器能按照手势进行相应的操作。

据小米 AI 实验室视觉团队视频组负责人赵雄表示，由于个体差异性和表达习惯的不同，用户做出的手势差异很大，手势识别算法需要将符合定义的不同形态的手势全部映射成正确的分类，精准响应用户的需求。除此之外，还需要甄别出定义之外的手势并将它们忽略，以免引起用户意料外的误操作。针对这个问题，视觉团队采集了大量形态各异的手势正样本和负样本，将它们纳入训练集中，使算法既可以尽可能地识别出有效手势，又可以过滤无效手势，进一步提高准确率。

以点赞手势为例，针对不同人的表达习惯，视觉团队采集了大量的不同手部朝向和角度的样本，尽可能涵盖更大的范围，同时也采集了跟点赞比较接近容易引起混淆的负样本（比如拳头），同步训练，保证了这个手势的召回率和准确率。

此外对于形态比较接近的手势，如点赞快进和快退，为了进一步明确规范，视觉团队以拇指角度为区分标准，对这三个手势的覆盖区间进行了清晰的划分，既保证了不同用户操作的鲁棒性，又增强了灵活性，进一步提升了用户体验。

手势识别功能一经上线，即可支持收藏、播放、暂停、快进、快退 5 种手势控制，可以在听音乐、看视频、闹钟响铃等场景下，通过手势轻松实现无触碰的交互新体验。当用户使用抖音、爱奇艺、优酷、腾讯视频、芒果 TV 等平台时，可以使用手势进行操控，满足用户在更多场景下与音箱交互的智能体验。

童脸识别功能

音箱作为一个家庭产品，如何实现不同家庭成员之间模式的无缝切换，是困扰开发者许久的一个问题。这一次 Redmi 小爱触屏音箱使用童脸识别，实现了当孩子使用音箱时，可以自动进入儿童模式，开启儿童保护功能。

据小米 AI 实验室视觉团队项目经理崔雪峰讲述，童脸识别功能中，主要包含人脸检测、关键点定位、人脸对齐和年龄估计四个算法模块。其中，前三个模块负责从图像中定位人脸区域并转换成标准的人脸图像；年龄估计模块对标准人脸图像进行处理，预测年龄值。

小米童脸识别算法速度快、识别稳定、抗干扰能力强，能够应对各类家庭儿童使用场景需求。未来童脸识别技术将进一步细化年龄检测精度，为内容推荐提供依据，更加精准地针对不同年龄段儿童、青少年等提供丰富多样的娱乐、影视、音乐、学习、资讯、信息类资源。

对于儿童来说，智能音箱将会既是一台影音播放器、故事机，也是一台适龄玩伴的游戏机，甚至可以是一台学习机，为幼儿早教、K12 成长教育、语言、技能、学科等专业类教育提供线上教学服务。

结语

小米 AI 技术致力于从用户实际需求出发，以提升用户体验为理念，让用户在使用智能设备时更加便捷。未来，小米将继续在 AI 技术领域深耕，不断地为用户带来更好的使用体验。

发布

暂无评论

演讲经验交流会｜ArchSummit 上海站

创作场景

小米产品背后的 AI 技术实践分享

AI 魔法分身功能

AI 通话功能

运动健康功能

声控拍照功能

手势识别功能

童脸识别功能

结语

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载