QCon 全球软件开发大会(北京站)门票 9 折倒计时 4 天,点击立减 ¥880 了解详情
写点什么

富兰克林的风筝:ReID 产业化拉开的计算视觉新序幕

2020 年 4 月 10 日

富兰克林的风筝:ReID产业化拉开的计算视觉新序幕

请大家跟我想象一下,假如你的世界里突然没有了电,会是怎样?没有了闹钟和手机,没有了灯光与网络,也没有了电脑地铁和飞机……


一切现代生活的便利,都源于 1752 年 6 月的一个雷雨天,富兰克林放飞了他的风筝,让世界“看到”了电——当时被认为是最神秘、也是最危险的力量之一。


近几年来,人们面对城市中日益增多的智慧摄像头,或多或少都会怀抱着如同“雷电”一样的警惕。无数科幻电影都告诉我们,当走在路上的自己被电脑录入,出行轨迹就有可能被随时侦查到……


显然,这并不是因为人工智能(人脸识别)技术太强大,而是因为它还不够强大,至少在大众应用层面是如此。举个例子,想要在精准识别与个人隐私之间达到平衡,行人重识别(Person Re-identification,简称 ReID)就是一个非常有用的计算视觉技术。



因为它能够通过质量并不高的人脸图片,快速检索出不同摄像头下的同一个目标任务。


这会带来什么改变呢?


首先,人的脸和指纹一样独特,而 ReID 技术无需依赖高精度的人脸图像,也就避免了人们在公共场合被采集个人信息的忧虑;同时,ReID 分辨率够高,在一些人脸识别无效的情况下,可以起到替代作用。


因此,ReID 也成为计算视觉科技企业们攻关的对象。最近,依图科技在 ReID 领域取得突破,刷新全球工业界三大权威数据集当前最优成绩(SOTA),算法性能达到业界迄今最高标准。


这一标准意味着什么,能否成为 ReID 产业化的关键契机?


产业新动力:ReID 的价值与门槛

本杰明·富兰克林和他的风筝实验,代表了人类迈出了现代文明旅程的第一步。在那之前,没人能想象有电的生活;而今天,数十亿人已经无法想象没有电的生活了。


时代的需求和社会风俗的推动(很多时候是阻挠),总会有人为技术的进程助力。ReID 即是如此。


相信大部分人都不会否认,人脸识别/计算视觉在城市中的应用,正在给生活带来越来越多的便利。


比如通过智能摄像头来识别车流、车牌,实现高效率、低成本的安防;在火车站、机场等公共场所部署 AI,实现犯罪分子的侦查和捕获;帮助无人购物超市和商店提高用户体验;


再比如大家最熟悉的手机相册,想要让系统在不侵犯隐私的情况下实现照片聚类,ReID 都是不可或缺的技术。


2018 年,特朗普政府决定在美国南部墨西哥边境追查非法入境者时,大众就担心 ICE 和其他移民机关可能会把人脸识别应用,从而导致错误辨识某个人并使其被错误拘留?因为在当时,人脸识别对于有色人群或女性的识别错误率依然很高。



既然 ReID 技术能够让智能生活变得更精准有序,那为什么久攻不下呢?这恐怕要从三个技术难点说起。


1.数据缺失。


我们知道,当前大多数摄像头的成像质量、分辨率、环境变化等差异都很大。在交通运输、工业制造和城市规划等实际场景下,99%的图像都是不含人脸或人脸部分是极其模糊的,仅有几个像素大小,这也导致在许多任务中,人脸识别算法经常失效,需要 ReID 顶上。


而一个高精准的 ReID 模型,要识别同一个人在多个摄像头下的画面,意味着其训练需要足够庞大、且具备连续性的行为数据。但与其他计算视觉任务相比,ReID 领域的公开数据集所含的 ID 数量比较小,不同摄像头的数据中同一个人的外观也可能发生巨大变化,这些都给算法分析造成了阻碍,需要在算法设计上做很多创新与研发。



2.计算压力。


如前所述,ReID 往往被部署到规模人群的行为轨迹分析上,这意味着系统需要处理的数据规模成倍增长。即使是采取 1:N 级(单一特征对比多种特征)的人脸识别,用来失踪人口搜索等。加上角度、光线等复杂性,特征提取、对比、判断都需要庞大的算力来支撑。


但现有的智能摄像机在本地终端无法部署足够大的算力,往往会选择将数据上传到云端,再进行识别和处理,不仅会造成一定的时延,延误众多关键任务;也有可能导致城市大脑“数据拥塞”,延宕整个系统的效率。


3.成本限制。


那么,为什么不考虑为摄像头等边缘终端加上芯片呢?答案就是贵。高通量计算芯片往往意味着更高的性能和稳定性,制程上自然也要求更小的纳米数,而 ReID 需要在泛工业场景中部署,如果为城市或工厂中的每个摄像头都加载这样高算力的 ReID 芯片,无疑是一笔巨大的开支,这也限制了 ReID 算法在大规模商业化场景中的落地。


显然,想要让 ReID 从一种技术远景完全照进现实,其所面对的困难和障碍并不小。这也是为什么,我们一直关注着致力于用 ReID 改善体验的公司。


用电子编织现实:依图这样改变 ReID


如果说富兰克林的风筝让人类开始与电建立了联系。那么,电力真正开始产生规模经济,是从乔治·威斯汀豪斯(George Westinghouse)开始。他以交流电系统击败了爱迪生的直流电系统,从而让发电厂与远距离的用户连接在一起。


而依图在 ReID 中的表现,正如这场世纪对垒一样,对 ReID 的现实落地起到了关键作用。


为什么这么说呢?


首先,依图升级了 ReID 算法的开发流程。通过结合 AutoML 等前沿技术,依图创新性地实现了模型参数的自动搜索与迭代,改变了算法依赖研究员手工设计与调优的传统开发流程。不仅降低了模型的训练成本,也让算法的泛化性更强。


其次,进一步提升了 ReID 算法的识别性能。依图自研算法在业界最具影响力的三大 ReID 数据集 Market1501、DukeMTMC-ReID、CUHK03 上,将两大关键指标“首位命中率”(Rank-1 Accuracy),以及“平均精度均值”(Mean Average Precision,mAP)6 项数据全部提升,达到了更高的 mAP,目前达到了工业界第一,从而进一步稳固了中国 AI 在该任务上的领跑地位。



此外,ReID 算法的实用潜力持续进阶。在实战应用中,依图还依托自研的 AI 芯片 QuestCore(求索), 在仅凭穿着、步态特征的条件下,将 ReID 做到 2017 年——2018 年人脸识别的精度。当时,机场、火车站等公共场合已经开始大规模使用人脸识别进行安防保障了。这意味着,ReID 也有望被以低成本的解决方案,尽快进入现实场景之中,让人们无惧且享受计算视觉带来的顺畅体验。


目前看来,依图的创新将带给 ReID 算法更好的成本比,以及更丝滑的应用体验,平衡了理想技术与现实困境之间的关系。


挑战与机遇:ReID 的未来路径

必须承认的是,要让城市换一种“眼睛”看行人,并不是一件容易的事。


一方面,各个城市摄像头体系的建设标准、密度,以及进度都各不相同,要让它们共同点亮 ReID 的“技能树”,实现全面替换,还有许多与技术成熟度无关的挑战;


还要面对复杂实景的挑战。即使 ReID 算法的首位命中率足够高,只意味着算法能够在特定的几个场景数据集下准确找出最容易识别或者匹配的那张。但现实中的场景远比这有限的几个数据复杂的多,数据模糊、建筑物遮挡、天气的改变等等,都会影响模型的实际表现。所以现在认为 ReID 模型能够应付真实任务,还为时过早。


这也是为什么,尽管依图科技刷榜 SOTA,算法性能达到了业界目前的最高标准,但依图的研发人员耿直地说,学术界的这三个数据集不能远远不代表工业界的最好水平,更精彩的表现还要放眼于实战之中。


因为比赛中所采用的数据集,早已限定好了规模和分布,属于“应试作业”;而在依图实际落地的 ReID 项目中,还会遭遇更加复杂的数据、环境、参数,是“奥数级别”的挑战难度。



另外必须正视的一点是,要让终端摄像头完成高通量的实时计算,仅仅依靠研发端的突破还远远不够,城市环境中是否具有足够的边缘计算节点,是否有边缘计算数据中心提供澎湃的算力支持,这些都需要整个产业链乃至城市决策者的共同合作。


由此不难发现,在抵达 ReID 产业化的旅程中,科技企业起到了怎样的作用呢?


以依图为例,一方面,通过将自身科研优势与新兴算法相结合,加快 AI 算法的落地。


比如依图就将自身在芯片研发上的硬件能力,与通用化算法相结合,实现了软硬件协同开发,不仅取得了刷榜的好成绩,更关键的是激活了 ReID 与芯片端的融合可能,让更多的算力需求被释放,从而带动芯片产业乃至整个社会智能的进程。


正如人脸识别逐渐渗透到社会的各个角落,ReID 算法也将成为智能生活不可或缺的一部分。借助 AI 芯片 QuestCore™(求索)和 ReID 模型应用,依图将催化出多大的商业富矿,构筑基于 ReID 的新产业链。



1752 年,富兰克林爬上屋顶放飞一只风筝的时候,可能并没有想到,他将改变整个世界的科技认知与生产基础设施。


而 ReID 对城市计算视觉应用的迭代,也将为人类带来新的视角与光辉,并在不远的未来成为与我们生活休戚相关的一部分。


庙堂之高,与江湖之远的叠加,就是依图乃至整个 AI 产业所扎根的广袤土壤。


本文转载自脑极体公众号。


原文链接:https://mp.weixin.qq.com/s/U7N1qFPCfVGuGQbn16IfPg


2020 年 4 月 10 日 17:35125

评论

发布
暂无评论
发现更多内容

安卓嵌入式底层开发!整理出这份8万字Android性能优化实战解析,已开源

欢喜学安卓

android 程序员 面试 移动开发

快点来学吧!Android性能优化面试题集锦,深度解析,值得收藏

欢喜学安卓

android 程序员 面试 移动开发

EGG Network公链技术创新,EFTalk打造高效全能公链

币圈那点事

区块链

冲击大厂!阿里P9纯手打Java面试小抄(21版)在GitHub上已获80万star

云流

Java 程序员 面试

2021最新总结网易/腾讯/CVTE/字节面经分享(附答案解析)

比伯

Java 编程 架构 面试 程序人生

爱了!阿里巴巴JAVA岗发布,最新内部面试题(含P5-P7)

周老师

Java 编程 程序员 架构 面试

电子门锁没电的解决办法

孙叫兽

生活 程序人生 电子锁

神操:凭借“阿里Java脑图”,成功斩获腾讯、蚂蚁、B站、字节、滴滴等5个Offer

Java成神之路

Java 程序员 架构 面试 编程语言

快了何止100%?阿里巴巴Java性能调优实战(2021华山版)PDF版开源

Java成神之路

Java 程序员 架构 面试 编程语言

GO训练营第11周——DNS&CDN&多活架构

Glowry

堪称完美!中国Java之父纯手打,阿里首发:多线程与高并发

Java架构之路

Java 程序员 架构 面试 编程语言

如何批量下载YouTube视频到本地

科技猫

软件 音视频 经验分享 资源分享 工具分享

全票通过!微众开源项目EventMesh进入Apache孵化器

微众开源

Apache 开源 Event 事件网格 eventmesh

FFmpeg入门篇

Changing Lin

ffmpeg media

炸了,炸了!阿里P9纯手打Java面试小抄(21版)在GitHub上已获80万star

Java架构之路

Java 程序员 架构 面试 编程语言

GO训练营第10周——日志&指标&链路追踪

Glowry

【前端面试题】关于一些js的一些面试题(金融行业),我和面试官扯了三个小时

孙叫兽

JavaScript 前端 金融 笔试题

拍乐云推出“实时标注”,助力少儿编程、在线金融等行业场景实现高效互动

拍乐云Pano

音视频 在线教育 互动白板 实时标注 在线金融

源中瑞智慧社区解决方案,社区服务平台

13530558032

2B营销路径: 9大步骤自我拆解

boshi

营销数字化 七日更

2021 年要了解的 34 种 JavaScript 简写优化技术

LeanCloud

JavaScript 前端 前端面试

智慧党建信息管理平台系统建设

13530558032

同时拿到字节、腾讯、美团offer,我是如何做到的?GitHub上百万赞的《进大厂指南》笔记分享

Java成神之路

Java 程序员 架构 面试 编程语言

我看 JAVA 之 引用类型(Reference)

awen

Java ThreadLocal Reference

区块链电子发票平台,区块链电子发票优势

13530558032

Java 和 Python 关于 % 的那些坑

与你一起学算法

Java Python

看了上百份面经,发现每次面试的问题都逃不过这几方面

yes的练级攻略

面试

阿里巴巴最新推出王者笔记:“Spring MVC源码与实践”

周老师

Java 编程 程序员 架构 面试

寻找被遗忘的勇气(十九)

Changing Lin

3月日更

打卡学习 VBA 和 PYTHON week01-02

小怪兽

3月日更 【IT蜗壳教学】 【自我错误点总结】

产品调研报告

Ashley.

边缘计算隔离技术的挑战与实践

边缘计算隔离技术的挑战与实践

富兰克林的风筝:ReID产业化拉开的计算视觉新序幕-InfoQ