AICon议程上新60%,阿里国际、360智脑、科大讯飞、蔚来汽车分享大模型探索与实践 了解详情
写点什么

旷视联合 IDC 发布 AI+ 手机行业白皮书:CV 将成手机行业关键

  • 2018-10-23
  • 本文字数:4948 字

    阅读完需:约 16 分钟

AI 手机处于初始阶段

IDC 白皮书指出,AI 经历 60 多年的起落沉浮,终于在新一轮数字化浪潮下步入成熟期,渗透到社会生活的各个角落。可以说,AI 的大幕已经开启,人类世界正处于继蒸汽时代、电气时代、信息时代之后的又一次伟大变革时代。

另一方面,如今手机成为承载人类数字化生活与工作最重要的设备。AI 时代的到来,将为手机带来翻天覆地的变化,从而突破现有的发展瓶颈,衍生出更加多元的应用,展开更为庞大的市场图景。

然而,智能手机市场正面临艰难的转型期。经过十年的黄金发展期,在 2017 年,智能手机行业遇到了发展的重要转折点。

根据 IDC 的统计数据显示,2017 年,全球智能手机出货量为 14.7 亿台,同比下降 0.3%,首次出现同比下跌的情况, 而中国市场的变化趋势更为明显,2017 年中国智能手机出货量为 4.4 亿部,同比下降 4.9%,这意 味着传统的智能手机市场已经呈现饱和,手机厂商必须从拼销量、拼价格向拼品质、拼体验转型。

此外,终端消费者的购买行为正在发生转变,“品质”正在成为重要的考量因素之一。

2017 年,越来越多的手机厂商意识到了 AI 给智能手机行业带来的价值,纷纷推出了自己的 “AI+ 手机” 。2018 年,主流手机厂商更是在各自的旗舰机型中全面引入 AI 技术,甚至搭载 AI 芯片的手机正在成为市场的主流。

但是,同样我们也看到,目前的“AI+ 手机 ”还处在较为初级的阶段很多的功能应用还具有局限性,只是在部分特定场景下才能发挥作用,距离真正的“AI 手机”普及还有不小的技术门槛。

目前的“AI+ 手机”还处在较为初级的阶段,很多的功能应用还具有局限性,只是在部分特定场景下才能发挥作用。

IDC 对中国 2018 年上半年出货量前 100 名的手机型号 (占中国上半年智能机出货量的 91%),共计 1.6 亿部的手机进行分类统计,其中提供 AI 功能的手机占比已经接近 90%,但是真正具备全部 AI 能 力的手机还不足 10%,“AI 手机”市场还有非常大的提升空间。

计算机视觉是 AI 手机的重要助推力

 

AI 技术在手机应用中的渗透率

那么,什么才是真正的 AI 手机呢?

IDC 在 AI+ 手机行业白皮书中指出,AI 对于智能手机的价值,是能够提前预测用户需求,主动给出相应指引或回应,实现从 Smart  到  Intelligent,AI 解锁仅仅是行业向前迈出的第一步。

从上图中我们还可以明显的看到,视觉应用是手机 AI 应用中最主要的诉求,主流的手机 AI 应用大多与视觉应用相关(蓝色柱状图),可以说,提升视觉技术是当前是改善用户体验最直接和最有效的手段

在 2017 年《IDC Consumerscape 360°》调研中,51% 的用户会将拍照作为购买手机的七大选择因素之一,视觉应用正在成为提升用户体验,影响用户购买行为的重要指标。而计算机视觉技术恰逢其时的成熟与市场需求让视觉 AI 正在成为行业竞争的“护城河”。

(当你购买手机时,影响你采购决定的 7 个最重要的因素是什么? )

计算机视觉已经成为手机终端不可或缺的技术。视觉技术应用的好坏,已经成为评判一款手机产品重要的指标之一。

想要给最终用户带来超预期的视觉体验,需要产业链的协同发展。视觉技术的推陈出新,与产业链的发展紧密相连,“应用”、“算法”、“解决方案”、“硬件”任何一环的短板都会使技术创新的价值大打折扣。

因此,IDC 将计算机视觉技术对 AI 手机的影响分为四个层面,每一个层面的创新既相对独立,又互相促进。利用新器件、新算法,打造新方案、探索新应用,改善用户体验,提升用户粘性,是 AI 手机快速普及的重要助推力。

 

计算机视觉应用全景图

应用层

从应用方面来看,计算机视觉技术是赋能者。视觉在手机 APP 中具有丰富的应用场景,而创新算法赋能的视觉应用,将帮助 APP 开发者创造出无限的可能。从技术上来看,计算机视觉 技术在手机的应用主要可以分为三大方向:识别与认证、AI 摄影、3D 视觉。

3D 视觉是手机视觉技术最具潜力的应用。随着光学器件的提升,3D 视觉将原来平面的数字世界做到立体。

IDC 认为,3D 视觉将实现计算机视觉在手机领域的重大突破,为手机应用打开了更为广阔的空间,例如:AR 游戏、虚拟试穿等应用,未来 3D 能为 “AI 手机” 带来更多的想象空间。

但是在前面的调研数据也可以看到,目前基于 3D 的视觉应用还不普及,应用、算法、 硬件、解决方案之间的技术壁垒还没有完全打通,需要有更为简单和高效的技术方案来进行一站式的整合,需要产业生态进行更深度的融合与协作。

算法层

算法是应用的灵魂,算法的优劣决定着应用体验的差异。

目前,计算机视觉普遍采用基于深度学习的算法。深度神经网络的办法弥补了手工设计特征的缺陷,非线性变换可以做非常多次,特征表示能力显著提高,并且可以自动地训练所有参数,大幅提升了视觉算法的效率。

此外,在同样的算力下可以提供更高的精度和更快的速度同样重要。尤其是在手机应用领域,手机由于受到成本、外观、电池容量、供应链等多种因素的限制,需要保持性能、体验和价格的平衡,如何在有限的算力基础上输出最好的结果,这对算法提出了更高的要求。

算法层同时需要开放和易用。算法层除了需要创新,更需要实用,需要支持标准化、开放性和易用性,可以被更多的开发者高效的集成到应用之中,通过人脸识别、人脸检测、人脸建模等算法,满足用户需求。

解决方案层

如果说算法层更多的是为应用层服务,解决方案层更多的是为硬件层提供支撑。随着视觉应用的场景化,不同的场景需要不同的视觉解决方案,底层算法需要根据不同的应用场景提供深度计算、深度修复、深度优化、标定、畸变校正等不同的能力,并针对双摄、三摄、深摄等不同光学器件提供个性化的优化方案。此外,任何被制造出来的光学器件都不可避免的具有偏差,如何利用算法对其合理的优化是视觉应用中重要的一环。

硬件层

最后是硬件层,要想达到最佳的视觉效果,摄像头、传感器、芯片及硬件模组的作用毋庸置疑。特别是 3D 光学器件的成熟,未来基于 3D 技术的应用将快速普及。同样,如前文所述,任何一个应用的爆发都不只是某一个环节的成功,应用、算法、解决方案和硬件之间的有效整合至关重要,双目、结构光和 TOF 方案都需要高清摄像头、IR 投射器、IR 接收器、激光发光器等设备的搭配组合,实现软硬一体,协同发展的产业生态。

我们可以发现,AI 视觉产业生态的整合正在发生。以高通 (Qualcomm)、联发科 (MTK)、紫光展锐等公司为代表的芯片厂商,以及以奥比中光 (Orbbec)、艾迈斯 (AMS)、舜宇光学 (Sunny)、奇景光电 (Himax)、Bellus-3D 等公司为代表的光学器件和模组厂商,正在通过战略合作、资本入股等形式与上层的算法和应用公司进行深入合作。

随着 AI 应用场景的不断拓展,视觉应用需求更加强烈,但是开发周期和技术门槛、手机设计的特殊要求等,让视觉技术的产业整合势在必行,应用、算法、解决方案、 硬件等多方供应商需要紧密配合,才能将用户体验做到极致,未来视觉技术的产业链将向融合发展的方向不断整合。

计算机视觉技术发展前景广阔

IDC 在白皮书中指出,计算机视觉技术封装将成为手机产业链的关键环节

一方面,计算机视觉将与元器件相结合,提升在收发端数据获取的数量和准确性。将计算机视觉技术运用于收发组件组成的传感系统,可以形成嵌入式计算机视觉感知系统,使前端设备不仅能完成基础的视觉感知,即将被检测的目标转换成图像信号,还能将信息进行初步的识别和分类,并将处理结果实时转变为数字化信号并输出结果,实现更智能的自动识别功能。

经过初步处理、筛选与分析,数据的准确性与针对性进一步提升,将减轻传输过程中的带宽压力,从而避免数据丢包与压缩引发的信息丢失或误差,使后续的智能分析收益,提高整个过程中的准确性。

另一方面,计算机视觉算法将与芯片深入融合,提升数据分析质量。计算机视觉可以将一些特定的图像算法通过芯片的方式实现,并融入基于神经网络的深度学习,实现数据和计算的并行处理,从而突破给定计算量设备上的带宽限制和算力限制,优化逻辑运算。

同时,深度学习的成功应用也将倒逼神经网络的升级,使网络设计日趋完善,并进一步优化视觉分析过程,全面提升数据分析结果的质量。

计算机视觉是 AI 最为成熟的技术之一,其应用已经在政府、金融、互联网等行业市场率先落地。但是,整体而言,计算机视觉的应用仍处于起步状态,当前市场关注度、渗透率及技术采用度相对较高的应用场景,如人脸识别、物体识别、物体检测等还停留在较为基础的物体探测阶段,在更具体 的事件检测、更灵活的人机交互及更复杂的信息重组、自主行为等方面的应用明显不足。可以说, 当前的应用仅是冰山一角,未来的发展前景明显更为广阔。

(计算机视觉全景应用图谱 )

随着万物互联的物联网时代的到来,AI 面临着全新的发展机遇,与物联网的结合将更为紧密。越来越多的物联网设备接入网络,通过嵌入式模组、计算单元、感知单元等将物理世界数字化,获取丰富的数据,大大提升 AI 的感知能力,为 AI 奠定坚实的数据基础,让充分的数据价值挖掘成为可能。

同时,AI 通过深度学习技术,可以迅速形成高结构化、高可用性的知识,让物联网设备变得更 为智能,更能理解用户,从而在各个行业应用场景中提升效能。

旷视在手机“AI 化”浪潮中扮演什么角色

 旷视科技副总裁 谢忆楠

作为业界最早一批进军 AI 移动智能终端产业的人工智能企业之一,旷视科技也是手机 AI 解决方案提供商,在以 AI 助力手机厂商差异化增长的过程中,旷视有自己的思考和实践。

2017 年,旷视开始将核心 AI 技术应用拓展到了手机行业,基于核心的深度学习和计算机视觉技术推出人脸支付、人脸识别解锁、人像光效、人像背景虚化、视频美化、3D Animoji 等一系列移动端 AI 产品,以满足不同手机厂商在人脸解锁、图像增强、相机增强、智能图像和视频处理上的需求,在不到一年的时间内已经与华为、小米、vivo、OPPO 等国内头部手机企业实现深度合作

 

旷视科技在 AI+ 手机行业白皮书中分享了其在解锁、支付、人像处理等场景的应用创新,其中包括首款搭载 3D 结构光的量产安卓机型 OPPO Find X,通过海量的数据训练和自主研发的核心算法,旷视为 OPPO Find X 提供的 3D 人脸解锁支付及 3D 人像光效能力,为用户带来更好的人机交互体验;而在与 vivo 的合作中,旷视科技为只保留前置单摄摄像头的 vivo X23 提供了红外双通零光感人脸解锁方案,以综合解锁体验、安全性和硬件成本。10 月 18 日刚刚发布的联想 S5 pro 中,也融合了旷视的 AI 能力用于解锁、3D 美型和人像光效处理。

获得资本的青睐,靠“务实”

作为一家以人工智能为核心的物联网解决方案提供商,旷视从不缺乏资本的青睐。

2017 年 10 月 31 日,旷视科技在宣布正式完成 C 轮 4.6 亿美金融资,这一数字也打破了当时国际范围内人工智能领域融资纪录。相比其他 CV 领域的公司,旷视有哪些独特的优势?为什么会被吸引投资界如此看重?

“深度学习目前在整个计算机视觉领域的应用非常多,但是却存在着短板,”谢忆楠认为,“深度学习的短板在于需要进行大量的监督式学习,这和人靠经验和常识不同,机器学习需要大量的数据标签和训练过程。另外,机器学习在解决很多新的场景问题时也不如人类,未来,算法能力的提升要求从监督学习到小样本无监督学习转变,而这是旷视科技的长处。”

“另一方面,旷视是一个务实的公司。”谢忆楠说道,“一家创业公司融资,可能在 A 轮、B 轮时靠 demo,但在 C 轮时能拿到融资必定是商业模式经过验证的公司。”

旷视是进行商业化落地较早的公司,因此能够获得资本的青睐不难理解。他说道,资本市场进入寒冬阶段是整个行业的不幸,但是优胜劣汰,却对真正务实,真正做技术和解决方案的公司来说是一件好事。

据了解,除了在手机和摄像头上应用 AI,旷视还于今年 4 月份收购了艾瑞思机器人公司,开展智能机器人业务。谢忆楠表示,旷视不仅在做人脸识别,它还是一家计算机视觉公司,旷视不仅要做机器人的眼睛更要深入研究机器人的手和腿

“未来,我希望设备可以具备与人协作的能力,产生更多价值,旷视未来探索的方向将包括开发产生数字化数据的智能化设备。”谢忆楠说道。

关注「AI 前线」原创(ID:ai-front)公众号,后台回复关键字 “AI 手机白皮书,获取完整版报告。

感谢蔡芳芳对本文的审校。

2018-10-23 08:068904
用户头像

发布了 42 篇内容, 共 14.5 次阅读, 收获喜欢 53 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

企业如何应对开源软件供应链安全问题?

安势信息

开源 开源安全 软件供应链安全 开源安全与治理 清源CleanSource SCA

极客时间 - 运维进阶训练营 - 第六周作业

dog_brother

鸿蒙开发实例 | 可复用列表项的ListContainer

TiAmo

华为 华为云 12月月更

底层逻辑-理解Go语言的本质

面向加薪学习

golang go语言 源代码 golang 面试 Go源代码

AngularJS进阶(二十四)AngularJS与单选框及多选框的双向动态绑定

No Silver Bullet

AngularJS 12月月更 单选 多选

踩坑之旅:配置 ROS 环境

eng八戒

机器人 ROS 移动机器人 机器人开发

MetaTown:一个可以自己构建数字资产的平台

华为云开发者联盟

区块链 华为云 12 月 PK 榜 数字资产平台

足球比赛中的数据科学

CnosDB

数据库 时序数据库 开源社区 CnosDB infra

架构实战营 1-5 学生管理系统实战随堂测验

西山薄凉

「架构实战营」

架构实战营 1-6 学生管理云平台实战随堂测验

西山薄凉

「架构实战营」

AngularJS进阶(二十二)实现时间选择插件

No Silver Bullet

AngularJS 12月月更 AngularJS时间插件

TDengine3.0:解决高基数问题的时序数据库设计思路

TDengine

数据库 tdengine 时序数据库

【愚公系列】2022年12月 微信小程序-组件模板和组件样式

愚公搬代码

12月月更

会议报道 | 第二届百家医院单细胞中心联盟年度峰会圆满落幕

联营汇聚

2023最新版EasyRecovery软件下载安装教程

茶色酒

EasyRecovery EasyRecovery15 easyrecovery2023

火山引擎DataTester:一个爆款游戏产品,是如何用A/B测试打磨出来的?

字节跳动数据平台

大数据 游戏 AB testing实战 12 月 PK 榜

极客时间架构训练营作业-模块一

张建闯

架构实战营

mysql优化之 performance Schema常用查询sql

@下一站

MySQL 优化 12月日更 12月月更

CDH+Kylin三部曲之一:准备工作

程序员欣宸

大数据 kylin 12月月更

AngularJS进阶(二十五)requirejs + angular + angular-route 浅谈HTML5单页面架构

No Silver Bullet

AngularJS 12月月更 requirejs angular-route

4.如何做好架构设计

程序员小张

「架构实战营」

工作中常用的设计模式--策略模式

lpe234

Java 后端 设计模式 策略模式 spring-boot

bat脚本常用命令及测试

@下一站

软件开发 BAT 12月日更 12月月更

编码开发如何开展API安全实现

穿过生命散发芬芳

12月月更

2022-12-04:给定一个由 ‘[‘ ,‘]‘,‘(‘,‘)’ 组成的字符串, 请问最少插入多少个括号就能使这个字符串的所有括号左右配对, 例如当前串是 “([[])“,那么插入一个‘]‘即可满足

福大大架构师每日一题

算法 rust 福大大

架构训练营模块1作业

附加信息

架构训练营

架构实战营 - 微信业务架构图 & “学生管理系统”毕设架构设计

huiwen

架构实战营

Python:灵活的开发环境

eng八戒

Python Python自动化办公

浅谈 Apache Flume 数据接入的实现原理以及问题分析处理方式

移动云大数据

flume

理解DALL·E 2, Stable Diffusion和 Midjourney的工作原理

Baihai IDP

人工智能 AI 工具 AIGC 文转图

CorelDRAW2023中文版专业矢量软件更新介绍

茶色酒

CorelDRAW 2022 CorelDraw2023 CorelDraw

旷视联合IDC发布AI+手机行业白皮书:CV将成手机行业关键_AI&大模型_陈利鑫_InfoQ精选文章