QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

AI 场景的价值体现——视觉 AI 技术落地实践

  • 2017-12-24
  • 本文字数:4084 字

    阅读完需:约 13 分钟

杨帆,商汤科技联合创始人、副总裁,EGO 北京分会会员。作为商汤科技工程产品中心总负责人,在泛安防智能视频、移动互联网、金融等行业开发和提供人工智能解决方案。凭借在计算机视觉算法产品化、项目管理、研发管理和团队管理方面十余年的积累和经验,杨帆推动商汤科技在技术应用商业化落地方面取得重大进展,仅 2016 年就获取了数亿元的产品订单。因参与创建商汤科技,并在短短三年内将其打造成为人工智能领军企业的突出表现,于 2016 年当选“北京市优秀青年人才”。

以下内容由InfoQ 对杨帆先生的部分采访整理。

“AI 更大的价值在于跟不同的行业结合”

杨帆在计算机视觉技术领域沉浸多年,在微软任职期间,他主要从事计算机视觉、计算机图形学等领域的新技术孵化工作,包括人脸识别、图像物体识别、人像三维重建等;目前商汤的核心技术也是以人脸识别、智能监控、图像识别等为主。作为主导技术落地的负责人,杨帆笑称自己是给公司的研究员们打下手的。杨帆带领逾 200 人的工程开发团队,在泛安防智能视频、移动互联网、金融等行业开发和提供人工智能解决方案,推动商汤科技在技术应用落地方面取得重大进展。

杨帆认为, AI 技术并非新事物,但却在过去的两三年集中爆发,其关键原因就在于今天对语音、图像、视频,有了更加信息化的处理技术,在各个环节上具备了更强的技术储备。从技术到落地,AI 技术所实现的这一切,都离不开场景的支持。

AI 技术继承了多种基础技术,在面向工业、金融、医疗、家居、自动驾驶、安防、物流、农业等不同应用场景的解决方案,比如 AI 和医疗的融合应该会体现在智能设备和识别诊断主要两个方面;AI 和金融的整合使金融交易和管理更加安全,实现精准营销、大数据征信和普惠金融;AI 和安防的融合实现智能监控、安保机器人等应用场景;AI、大数据等这些东西纯谈概念是没有任何意义的,最终都要回归场景,可复用的基础技术和平台工具固然重要,但只有落在应用场景里,我们才知道其明确的价值在哪里。

业界曾出现一种批评的声音,称现在很多公司和开发者其实对于深度学习的运作原理并不清楚,只知道应用,却不知其所以然。

杨帆表示:“学术界有两套观念,一套观念说知其然不知其所以然是离经叛道、是不对的。对于这个观念,杨帆表示认可,其实现在已经有很多团队,包括商汤也投入力量在进行更加前沿、更加基础性的科研,“这样的基础科研能够指导我们将来在正确的方向上走得更远。”但杨帆认为,基础研究与应用科研,二者不可偏废,完整的科学体系和持续的方向性指引非常重要,但是实证科学也非常重要,企业最终还是要以技术落地的结果说话。”

人脸识别大行其道,不免让人对这项技术及其背后的公司产生了许多好奇。商汤的人脸识别技术到底有何门道?

对于这两年非常火的“刷脸”,开始有各种基于人脸验证能力的实用化场景。在互联网信息安全方面,对于账户的盗用能够更好的分析和调查,包括线上的手机端、桌面端、H5,包括定制的摄像头。操作逻辑非常简单,最开始做刷脸的注册,现在刷脸的支付,手机逐渐去进行刷脸的解锁。在对于个人的认证上,也有非常多的价值。人脸识别的技术,可以判断操作手机的是不是真实的人。有一个活体检测的技术服务,也包括在线下一体机的形态。对身份证的关键信息进行扫描,包括对身份证内部照片的读取和当前采集人之间进行判断。基于人像的身份认证也是一个非常有价值的工作,它是一个特殊的跨行业的解决方案。这个解决方案现在已经从线上到线下开始极大范围地蔓延。对中国来说,个人公民身份信息的实名制是一个非常重要的诉求,这个诉求能够有效地帮我们在一定程度上解决互联网的安全问题、解决线下的公共安全问题。所有线上的互联网行业应用,到各种线下行业,包括机场、超市、酒店,都会有越来越多的对于个人身份信息核验的强烈需求,商汤在这方面也提供了非常完整的解决方案。

大家都关注识别正确率,在实际场景中正确率是否为最关键因素?

近几年,很多公司在人脸识别技术上投入了大量的研发并取得了亮眼的成绩,其中识别率一直是各家宣传的重点,今年我们能在各类报道中频繁看到各种 99%、99.4%、99.8% 等。虽然企业这么宣称,但实际背后蕴含的差异是非常大的,它会有非常多影响因素,所以准确率跟行业背景以及前置假设会是一个强相关的关系。而不同的场景下取得的识别准确率很难做类比。

当识别率达到 99% 以后,人脸识别技术面临的难点主要在于,如何在不同行业场景中深化这项技术。虽然看上去 99% 的识别率已经很高了,但不同行业场景对于识别率的要求不同,99% 可能只是该技术得以使用的入门条件;而安防场景下,照片模糊、有遮挡、角度不佳都给人脸识别带来了更现实的挑战。

“看似同质化很强、很简单的人脸识别,细分的技术场景其实非常复杂,所以脱离场景去谈技术是没有太大意义的,今天能看得到的,包括以安防、手机这样的一些重点行业为代表,对于真正的人脸识别技术的全面深化存在着非常多的挑战,值得我们去攻克。”

那么,怎样判断一个行业是否具有做 AI 场景的价值?如果从商汤自身说起,在做AI 平台化的进程中,遇到过哪些挑战和问题?

1、看需求

首先,需求得是真实的。杨帆举了个具体的例子:有一个家电厂商想通过人脸识别功能,实现“我进去之后这个房间自动调节成 16 度,我母亲进这个房间自动调节成 26 度”。我问他:“如果你和你母亲一块进去怎么办,如果你背着身进去怎么办?”他说这个需求,其实最好的解决办法就是摇控器。

其次,需求得是刚性的。需要考虑用户愿不愿意买单,愿意花多少钱买单?往后更深层次的逻辑链,需要对场景的更深的了解。

2、规模化

今天完成一套解决方案成本很高。人脸识别这样的技术,在不同的场景中技术差异很大。我今天做金融,1:1 的认证,错误率做到百万分之一,千万分之一,准确性非常高,在金融场景中非常好用。如果放在安防的场景下,安防要求百万人的黑名单库。而且黑名单库还要有误报,每一次误报有一个出警。同样是人脸识别,不同场景下关注的技术指标和任务是完全不同的。所以同样一个技术概念,在不同场景下的差异性非常明显。再者技术什么时候成熟需要在特定的需求场景下,离成熟多远要有一个预判力。

3、数据闭环

做 AI 技术,数据闭环是非常重要的环节。为什么?我们做视频的会发现,当你技术不成熟的时候你的业务不能用,业务没有落地的时候就没有数据。做不好,就形成死循环。这样的死循环如何去打破?原动力的突破来自于技术,当你的技术有小的突破,把其他场景迁移过来。技术的突破可以带来业务的落地,业务的落地带来数据的累积,数据的累计可以带来技术的进步。这样的数据闭环,帮助整体业务拓展并能带来非常大的价值。今天,数据面临隐私性和安全性的质问和考验。包括区块链在内的很多技术,还有一些非技术的方式方法,可以带来更深层次的探索。

4、商业化

光做出好产品是不够的,还要在市场上真的有价值,并且能持续保有竞争力。任何新技术都会随着时间的推移而扩散,一般所拥有的时间窗口最多也就是一年多的时间。

在这一段时间内,如何看待当前所面临的场景?在这个场景中技术到底占据多大的地位? 是非关键性的应用还是关键性的应用?技术上的突破和分配,是否产生根本性的问题?在技术的壁垒期,我们能否利用这一段时间构建起技术以外的壁垒?

只有壁垒构建出来,利用时间窗口期把技术优势转化成其他的竞争性壁垒,这样的行业才值得去做。

5、技术创新驱动

早在一两年前,我们就搜集到大量用假照片和视频去攻击刷脸识别的行为,各种各样的案例。当我们拥有大量来自真实业务的攻击数据时,就能够针对图像视频各种各样的攻击方式进行非常好的防范,这来自于大量线上攻击的业务数据的累积,以及对这些数据的二次挖掘和利用。

这个给我们什么样的启示?做刷脸一开始是做人脸识别,但后来我们发现人脸识别不是最重要的,最重要的活体识别,分清到底是一个真人还是仿冒攻击。只有深入场景,才能发现你所面临的技术挑战跟你之前想象的不同。当行业落地的时候所面临的技术挑战,实际上需要重新定义、分解和解决。

从这五个闭环能够帮助我们去判断,把一个 AI 技术应用在某一个场景是否真的有价值,是否真的有意义,是否带来更大的用户价值。从这几个角度大家去进行分析判断,会有一个相对比较好的结论。

想把落地场景做好,复合型技术人才尤为重要

如杨帆所说,真正去看行业落地的时候,往往都是不同的技术叠加和组合的应用,这里面人脸识别和动作识别是最关键的技术,但实际上想把落地场景做好,一定需要多种技术组合。

杨帆表示,将创新技术转变为实际产品是一条满是荆棘的道路,行之不易,而其中最大的难点,一是如何选对方向和时机,二是如何找到合适的人才。

行业落地需要各种综合性的关键技术的整合。行业的需求往往是一些相对模糊的,而且从技术上来看是非常不明确的东西,这时候就需要有人有足够的能力去一一拆解。在杨帆看来,找到或培养一些既有技术背景、又对行业有足够深的理解的人才,是企业实现 AI 技术落地最关键的一点。他说到,“人才问题、团队组织问题、发展问题,特别是做 2B 行业,标准化与非标准之间的平衡性掌握,任何一个技术性产品落地会面临的共有问题,做 AI 技术落地,这些问题一个都不会少,而只会更严重。AI 人才是个更大的坑,AI 的技术性更深重,从过往来看,它跟行业的结合更弱,所以你想要真正去打磨出一个符合真正行业需求的产品的时候,需要把对行业的理解和对技术的理解融合在一起,这是当前最具挑战任务之一,因为过去可能这个世界上基本不存在这样的人,对行业有理解的人很少。”

结语

视觉 AI 技术的落地与 AI 人才的培养是一个复杂而庞大的话题,需要对技术和人才都有比较深刻的理解和认知。2018 年 1 月 5 日,移动技术创新大会上,杨帆也会针对 AI 的应用实践展开深入分享,感兴趣的同学可以点击阅读原文报名,现场与杨帆深入探讨和切磋!

相关活动

汇聚 1000 位资深移动领域技术开发者 ,共同探讨“AI 时代下的技术革新”,探索移动开发者的进阶之路!通过多维度的技术交流,传递技术领导者的经验。

添加微信小助手(ID:stuq1024)掌握第一手活动资讯,关于 AI 时代的移动开发新生态,都可以来到这儿看看,你将会获得更多技术新知。

2017-12-24 18:002276
用户头像

发布了 33 篇内容, 共 11.5 次阅读, 收获喜欢 23 次。

关注

评论

发布
暂无评论
发现更多内容

架构实战营-模块六作业

王朝阳

ETH2049 单币质押丨组合币质押项目系统开发技术介绍

l8l259l3365

StarUML for Mac(UML软件建模器) 5.1.0激活版

mac

苹果mac Windows软件 StarUML StarUML建模软件

设计模式-建造者模式

设计模式-责任链模式

Oracle的to_date()函数解决sql语句日期格式问题

知识浅谈

Java oracle

Things3 for Mac(日程和任务管理软件) 3.19.3中文激活版

mac

任务管理工具 苹果mac Windows软件 Things 3

业务负债与身体负债

胖胖

MySQL-MDL

VPS:搭建自己的私有云

薛定谔的皮皮虾

Nextcloud

写在 Chappyz 即将上所之前:基于 AI 技术对 Web3 营销的重新定义

股市老人

超越服务器:VPS 在开发领域的崭新前景

E₀=mc²

AWS 虚拟化 亚马逊 Amazon Lightsail

Java 面试题之 Logback 打印日志是如何获取当前方法名称的?

越长大越悲伤

Java spring Spring Boot

业务出海之服务器探秘

天黑黑

亚马逊云 出海企业 海外服务器

持续夯实国云智算底座,天翼云携手伙伴共铸AI繁荣生态

Geek_2d6073

笔记的妙用:留过往之痕,期未来之变

少油少糖八分饱

方法论 App 工具 笔记 推荐书籍

开发者眼中的向量数据库应用领域

三掌柜

亚马逊云科技

ZkSync是不可错的Layer 2 四大龙头之一

币离海

以太坊 layer2 zkSync

Topaz Gigapixel AI for Mac(照片放大工具) 6.3.3完美激活版

mac

苹果mac Windows软件 Topaz Gigapixel AI 照片放大软件

2023-11-11:用go语言,字符串哈希+二分的例题。 给定长为 n 的源串 s,以及长度为 m 的模式串 p, 要求查找源串中有多少子串与模式串匹配, s‘ 与 s 匹配,当且仅当 s‘ 与 s

福大大架构师每日一题

福大大架构师每日一题

MySQL 数据库查询与数据操作:使用 ORDER BY 排序和 DELETE 删除记录

小万哥

Python 程序员 软件 后端 开发

es笔记七之聚合操作之桶聚合和矩阵聚合

Hunter熊

elasticsearch 聚合操作 桶聚合 矩阵聚合

亚马逊AI应用科技创新下的Amazon SageMaker使用教程

淼.

稳定扩散AI 纹理生成器

3D建模设计

AI Stable Diffusion AI自动纹理 AI 绘图 AI贴图

Macos数据备份工具:BeLight Get Backup Pro 3 附 注册机

繁星

数据备份 数据备份工具 Get Backup Pro 3

Linux RPM包安装、卸载和升级

芯动大师

AI场景的价值体现——视觉 AI 技术落地实践_语言 & 开发_Linda_InfoQ精选文章