序言
人的大脑分配了大量的资源用于视觉,对视觉的“投入”比听觉、味觉、嗅觉多得多:40%-50% 的神经元都与视觉功能有关,在大脑顶层 IT 区尤为密集。相较于其他感官,人类使用眼的场景也更多,平均活跃时间也更多,视觉占据人类感官系统的 80%。
于是,看,是人类感知世界最直接的方式。
随着技术的进步,人类已经不仅仅满足于用自己的眼睛看世界、看宇宙,因为人类本身生理结构的局限性,有些东西是光靠人类的眼睛看不到的,所以人类开始研究如何教会机器去“看”。
计算机视觉就是这样一门学科,用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。
2016 年被很多人称作人工智能的元年,但对于中国计算机视觉来说,2012 年开始,就已经陆续出现了不少后来为人所熟知的 CV 初创公司,依图科技、旷视科技等等都是在那一年创立的。
据 AI 前线调查,这些企业主要创立的时间都集中在 2015~2016 年前后,2015 成为了视觉公司创立最多的一年,约有 80 家企业在这一年成立。
从 2012 年到 2018 年,六年间,中国的国际机器视觉品牌已有近 200 多家,而中国自有的机器视觉品牌也已有超过 100 多家,机器视觉各类产品代理商超过了 300 家,专业的机器视觉系统集成商也有 100 多家,这些企业主要应用于安防、金融、互联网等方向。
2016~2017 年,也就是所谓的“人工智能元年”,中国的计算机视觉领域出现了一次明显的分水岭。在这一年的时间里,中国涌现出了一批优秀的独角兽企业,根据《2017 年中国独角兽企业发展报告》,2017 年称得上中国“独角兽”企业的公司已达 164 家,这其中包括了 7 家人工智能企业,而计算机视觉企业就在其中占了四个名额,他们分别是:旷视科技、商汤科技、云从科技与依图科技。
计算机视觉在这不到一年的时间里已经遍地开花,地铁的安防摄像头、火车站飞机场的人脸识别闸机、智能手机的人脸识别解锁与支付功能……不知不觉中,计算机视觉技术“渗透”到了人们生活的方方面面。
也同样是这一年,中国计算机视觉领域的几场数额巨大的融资活动,再一次吸引了世界的目光。被称为人工智能领域最“吸金”的产业,计算机视觉在这一年获得超过 230 亿元的投资,在中国人工智能领域的投资当中占比超过三分之一。
为了让全行业对计算机视觉发展现状有更清晰地了解,AI 前线策划并发布了《2018 中国计算机视觉行业报告》,我们采访了多家计算机视觉领域的“独角兽”企业与老牌技术大厂,并邀请多位专家从多角度对行业进行深度解读,希望这份报告能够为行业提供帮助并产生价值。
第一章:2018 计算机视觉行业全回顾
计算机视觉已经成为变现最顺利的人工智能技术,根据中国信通院 2018 年 2 月发布的报告数据,2017 年中国人工智能市场中计算机视觉占比 37%,以 80 亿元的行业收入排名第一。
其中,安防影像分析是目前计算机视觉最大的应用,2017 年占比约 67.9%,但目前新的应用领域正在不断创新涌现,例如无人驾驶、医疗影像,但现在没有大规模普及,都还是在初级阶段。
作为落地应用最广的人工智能技术,尤其在中国的发展如此之顺利,主要有以下几点原因:
第一,深度学习的突破。 深度学习是非常庞大的一个神经网络,通过深度学习,技术能做出非常好的结果来,虽然它不知道如何得出这个结果,但是它带来的提升以及足够 AI 技术从实验室真正走进生活;
第二,视觉场景极大丰富。人类有 70-80%的信息来源于视觉。相比语音场景的单一,CV 可以做的事情更多;
第三,华人群体在全球范围内的崛起。随着中国的日益强盛,越来越多的留学生出国选择计算机及相关专业,将前沿的技术与研发理念带回国内,这也客观导致了在 AI 和 CV 领域,华人人才储备的快速增长;
第四,中国国家层面的重视。中国在新兴技术领域与国外的差距并没有传统领域那么大,非常有希望在中短期赶上其他国家,且 AI 技术是中国产业转型升级的重要动力,所以国家从顶层部委到地方都十分重视 AI 技术的培育与发展,这就营造了一个非常好的发展环境。
2018 年,更多的技术得到应用,更多的产品得到推广,我们将从市场发展与技术进步两个方面进行详细解析。
市场发展
从整个计算机视觉行业发展的角度看,纵观中西计算机视觉发展,可以看到,中国与西方国家的演进路线不同。
国际上前沿的技术主要集中在深度学习的基础研究层面,而中国的计算机视觉技术更倾向于产业落地。经过了过去这些年的沉淀,中国已经在人才、数据、场景和政策层面做了比较多的储备,为中国计算机视觉技术的发展提供了丰沃的土壤。
尤其是在应用方面。从全球范围来看,计算机视觉领域一定要通过落地应用才能推动学术的发展,而中国在这方面具有巨大的优势。
说到计算机视觉场景的落地,以及赛道的抢占,这都与技术是否突破工业红线息息相关。
与其他 AI 技术一样,CV 技术的突破也在促使两个工具的产生:一个是生产力工具,对传统行业中的人力部分进行替代,降本增效;另一个是交互工具,带来新的交互体验和应用,形成新的应用场景。
目前 CV 公司比较集中的技术赛道有:人脸识别、自动驾驶、医疗图像等,但目前而言,商业化落地最快的还是人脸识别及其业务相关的一些技术,比如银行会用到人脸和自然场景下的 OCR(文字识别),还有浸入式大数据风控,安防会用到人脸、人体、车辆与大数据分析等。
全球 CV 领域在发展方向上与国内差别不大,但是行业落地的速度会有差距,国内在人脸、自动驾驶等技术在安防及部分行业落地非常快,这得益于政府的重视和政策的开放。
每年计算机视觉顶级会议上,来自中国的论文总数、最佳论文数量占比越来越高,中国计算机视觉学术团稳坐第一梯队。同时,技术的落地应用跑得快,往往也对这项技术提出了更多超前的、突破性的问题,倒逼技术向着创新的方向、领域突破发展,这些论文大部分都是来自于实际应用对技术的推动。
技术发展
从技术角度来看,目前计算机视觉技术在医疗、教育、自动驾驶、零售、社区等多个领域都有不错的发展,但人脸识别技术研发和落地情况是比较领先,因为人脸是天然的跨行业入口,每个行业都与人有关,所以人脸识别顺势成为了最先商业化的技术,而这一技术落地最为广泛的领域,就是每个人生活都离不开的手机。
计算机视觉落地手机行业
2017 年,越来越多的手机厂商意识到了 AI 给智能手机行业带来的价值,纷纷推出了自己的 “AI+ 手机” 。2018 年,主流手机厂商更是在各自的旗舰机型中全面引入 AI 技术,甚至搭载 AI 芯片的手机正在成为市场的主流。
但是,同样我们也看到,目前的“AI+ 手机 ”还处在较为初级的阶段,很多的功能应用还具有局限性,只是在部分特定场景下才能发挥作用,距离真正的“AI 手机”普及还有不小的技术门槛。
AI 对于智能手机的价值,是能够提前预测用户需求,主动给出相应指引或回应,实现从 Smart 到 Intelligent,AI 解锁仅仅是行业向前迈出的第一步。而视觉应用是手机 AI 应用中最主要的诉求,主流的手机 AI 应用大多与视觉应用相关,可以说,提升视觉技术是当前是改善用户体验最直接和最有效的手段,甚至已经成为评判一款手机产品重要的指标之一。
从技术上来看,计算机视觉技术在手机的应用主要可以分为三大方向:识别与认证、AI 摄影、3D 视觉。其中 3D 视觉是手机视觉技术最具潜力的应用。随着光学器件的提升,3D 视觉将原来平面的数字世界做到立体。
但目前基于 3D 的视觉应用还不普及,应用、算法、 硬件、解决方案之间的技术壁垒还没有完全打通,需要有更为简单和高效的技术方案来进行一站式的整合,需要产业生态进行更深度的融合与协作。后文将会对 3D 视觉的核心技术:3D 结构光进行更详尽的解释。
3D 结构光:3D 结构光是获取面部立体信息的最佳方案之一,它是通过人脸表现反射光线来确定深度信息的,主要用于终端人脸识别,如手机刷脸解锁等。
结构光听起来很高大上,但实际上也很好理解,工作时相关器件会投影具备一定结构的光,比如亮灭相间的条纹光线,如果打到平面上,那么反射回来会是原样粗细的条纹;而如果打到不规则物体上,那么反射回来就会时条纹就会发生变化,然后根据计算,就能得出物体的结构。
目前 3D 结构光技术在手机领域已经得到了应用,如:小米 8 透明探索版就是全球首款支持 3D 结构光技术的安卓旗舰手机。
云端和嵌入式
人工智能需要大量的数据,所以 AI 最早是往往是从云端起步的,但是随着时间的推移,因为安全性、人性化的需求,逐渐地的会有一个迁移,很多的应用会从云端迁移到终端,未来最常见的 AI 应用模式,可能是在云端做训练、做培训,最后在终端做执行。可以说,在万物互联的时代,云端 AI 和嵌入式 AI 会是相互共存、相互补充的关系。
在靠近数据产生端进行计算,将网络、计算、存储能力从云端延伸到网络边缘,也因此拥有低时延、本地性高、对贷款要求低等优势的新型计算模式。
人工智能强于人类的地方,在于它拥有并行处理能力,人工智能可以拥有多双“眼睛”,去观察这个世界并不断自我提升。如果“眼睛”会思考,就减少了回传大脑的“视神经”的负担。不必将全部数据都上传至云端,减少了对网络的负担,避免了网络堵塞,提高了网络带宽利用效率,于是拥有上万双“眼睛”的人工智能成为了可能。
人才培养
对于技术行业来说,人才培养是非常重要的一环,人工智能高准入的技术门槛,决定了 AI 人才需要较长周期的培养,所以当人工智能产业迎来爆发的同时,造成了大量的人才缺口。
目前,中国高校培养的 AI 人才更侧重于应用层面,这与中国 AI 产业的特色密切相关。同时,大学开放的氛围、校企合作提供的平台,也使得这批人才在进入企业后能够快速成长,深入到行业中来。
相比之下,国外的 AI 人才更加偏向于基础研究。但如今,中国 AI 人才也在基础研究方面有了成果,在 CVPR、ECCV 等全球视觉顶会上,中国的 AI 人才也展现出了强劲的实力。
根据 AI 前线对于国内计算机视觉相关企业的调查:社招人才由于其应用方面的丰富经验,在招聘时会更加受到关注;而随着大量毕业生对于人工智能企业,尤其是初创企业的认知不断提升,校招人才的竞争力也有所提升。
从整体来看,AI 创业公司对专业人才的重视程度更高,专业人才代表了企业的核心实力,高质量的人才能够帮助公司获得更强的市场竞争力。人工智能技术现在属于增长期,此时人才是最稀缺的。未来 3-5 年内,人工智能领域最重要的竞争都是人才战,最顶级的懂算法的人才尤为重要,全球范围内,人工智能领域突破性工作的研究人员数量及其有限,而 AI 竞争最核心的就是研究人之间的比拼。
一方面,技术专业人才能够加速公司底层技术的突破;另一方面,企业对应用型专业人才的需求同样强烈。尤其是在针对不同的行业深入落地时,专业人才能够协助企业更加精准地完成技术与新场景的匹配,帮助企业快速进入赛道。
此外,在人工智能领域做产品研发,需要深入各个垂直领域,成为每一个领域的专家,所以人才也需要永远保持学习能力和好奇心,要善于思考、勇于创新,才能走在时代前列。
第二章:“独角兽”的崛起
融资能力凸显
2018 年对于计算技术觉初创公司来说可谓是“丰收”的一年。
4 月,商汤科技获得 6 亿美元融资,而就在此后不久,今年 5 月,商汤又获得了 6.2 亿美元的融资。
7 月,旷视科技拿下了 6 亿美元的 D 轮融资,同月,依图科技也获得了 1 亿美元的融资。
10 月,云从科技获得 10 亿元融资。
不到一年的时间里,这四家公司就已经拿下了超 100 亿元人民币的融资,而根据 CB Insight 数据,2017 年中国 AI 创业公司的融资总额也不过 500 亿人民币(73 亿美元)。
相应的,这几家公司的估值也随着融资能力的上升而一涨再涨。
商汤科技目前估值已经达到 45 亿美元,云从科技估值达 33 亿美元,旷视科技估值达到 35 亿美元,依图科技估计达 20 亿美元。
当然,除了这四家被“重点关注”的明星企业,2018 年计算机视觉领域整体的融资水平都处在比较高的状态,根据 AI 前线统计,截至 2018 年 12 月,中国计算机视觉行业融资数额已达到 260 亿人民币,比去年整体高出近 30 亿元。
对于初创企业来说,融资能力当然可以展现出一部分实力,而真正要从竞争中获得认可,还是需要靠强大的技术水平。
技术争霸激烈
2018 年对于整个人工智能领域来说都是有些平淡的,甚至有人开玩笑说:2018 年 AI 领域最大的进步就是毫无进步。
对于计算机视觉领域来说是否也是同一番景象呢?
以上文所述的几家初创公司为例。
商汤科技
提到中国的 AI 独角兽,大概很少有人不知道商汤科技的。
从 2014 年成立至今,商汤科技也不过才走过四个年头,2018 年 9 月,商汤科技被国家科技部选入国家新一代人工智能开放创新平台的队伍当中,成为国家队的一员。与之同列的是百度、阿里云、腾讯、科大讯飞等技术大厂。
据 AI 前线调查,商汤科技已与国内外 700 多家公司和机构建立合作,涵盖智慧城市、智能手机、互动娱乐及广告、汽车、金融、零售、教育、医疗、地产等多个行业。
此外,商汤科技自主搭建了深度学习平台 SenseParrots,对超深的网络规模、超大的数据学习以及复杂关联应用等支持更具优势。商汤科技还自主搭建了深度学习超算中心,大幅降低了各类人工智能技术的研发成本,并且缩短了开发深度学习算法模型的时间。
在今年,商汤科技促成了包括 SenseAR 美体塑形、SenseDriveDMS 驾驶员监测、SenseMatrix 人脸 3D 重建等多个炫酷 AI 技术的落地。在智慧城市方面,商汤也加大了投入,据了解,商汤原创的 SenseSpace 智慧公共空间管理平台已经在黄浦江西岸正式落地并投入使用。
云从科技
2015 年 4 月,时任中科院重庆研究院智能多媒体中心主任的周曦正式创立云从。作为计算机视觉领域的“后来者”,云从的技术实力却一点不弱。
2018 年,云从建立了包含人脸识别、跨镜追踪、车辆识别、姿态识别、语音识别、文字识别等智能感知技术和大数据分析、知识图谱、人物画像等认知决策技术为核心的技术闭环。
今年 1 月,云从基于高准确度人脸识别系统产业化及应用,入选国家发改委“人工智能”创新发展工程;同年 9 月,依靠其自研的 SoC 芯片,云从入选工信部人工智能与实体经济深度融合创新项目;10 月,云从发布了国家发改委 “国家人工智能基础资源公共服务平台”项目,该项目启动于 2017 年,由腾讯、百度、科大讯飞、云从科技四家承建。
云从科技是第一家同时承担国家人工智能基础平台、人工智能应用平台和人工智能核心芯片平台的人工智能企业。
目前,云从科技已经成为中国银行业第一大 AI 供应商。包括农行、建行、中行、招行总行等全国 400 多家银行已采用公司产品,为全国银行提供对比服务日均 2.16 亿次。
在安防领域,云从的产品已在 29 个省级行政区上线实战,每天比对超过 10 亿次,数据汇聚总量超过千亿,协助全国公安抓获超过 1 万名犯罪嫌疑人;
在民航领域,已有 60 余家机场选择云从产品,日均服务旅客超 6 千万。
旷视科技
2011 年,旷视科技在北京成立。在计算机视觉独角兽里,旷视算得上绝对的“老前辈”。除了是业界最早一批进军 AI 移动智能终端产业的人工智能企业之一,旷视科技也是手机 AI 解决方案提供商。
旷视的核心 AI 技术应用早已拓展到了手机行业,基于核心的深度学习和计算机视觉技术推出人脸支付、人脸识别解锁、人像光效、人像背景虚化、视频美化、3D Animoji 等一系列移动端 AI 产品,以满足不同手机厂商在人脸解锁、图像增强、相机增强、智能图像和视频处理上的需求,在不到一年的时间内已经与华为、小米、vivo、OPPO 等国内头部手机企业实现深度合作。
2018 年,旷视在学术领域也收获颇丰,全年先后发表 20 余篇 CV 顶会论文,并在 ECCV COCO 2018 一举包揽四项冠军。
在安防领域,旷视拥有全国最大的第三方人脸身份验证平台。据了解,平台涵盖了全球 2.95 亿人次的人脸信息,能够提高在户籍排查、重点场所管控、出入境管理和案件侦查等警务活动和国际会议、全球赛事等安保活动的安全性。也能将人脸身份验证平台应用于人脸识别支付、人脸识别解锁、人像卡口系统等非安防领域中。
市场调研机构 WiseGuy Reports 发布的《2022 年全球面部识别市场预测报告》显示,旷视科技成为中国唯一入选的人工智能企业。
依图科技
依图科技成立于 2012 年,深耕安防领域,维持金融业务,大力布局医疗影像业,在 2017 年,依图科技获封安防领域表现最强的算法型厂商。
2018 年,除了两次上亿美元级别的融资外,依图科技的技术也同样令业界瞩目,尤其是在 AI+医疗领域。
今年 3 月,依图推出世界首套 AI 医疗影像质控系统,可在在目前医疗影像缺少有效质控手段的情况下,基于人工智能图像识别技术,通过海量数据训练,使医院系统具备医学影像成像质量的自动评价与评分能力。
6 月 15 日,四川大学华西医院与依图医疗合作研发出国内首个肺癌临床科研智能病种库和全球首个肺癌多学科智能诊断系统。
11 月,全球人脸识别算法测试(FRVT)上,依图以以千万分之一误报下的识别准确率超过 99%,成为冠军。
第三章:大厂的发展
对于技术大厂来说,2018 年在计算机视觉上的发展是从多方面体现出来的。
以百度为例,计算机视觉+雷达的方案成为 Apollo 自动驾驶的首选,不仅在公园等封闭环境中已经有了落地案例,百度还计划 2020 年开始交付高速自动驾驶车辆,可解决包括直道弯道定速巡航、检测车辆汇入、跟车行驶、前车刹车、拔杆变道等常见的驾驶问题。此外,百度在智慧城市方向也开始有所行动,为解决城市道路问题,百度突出了车路协同方案,在道路上安装智能探头用来监控路况,通过 AI 实时反应并处理突发情况。在智慧产业领域,百度的视觉技术也落地在医疗、制造等诸多产业当中。
对于阿里巴巴来说,阿里巴巴视觉智能计算团队目前的重点在四个方向:城市大脑,医疗 AI,工业视觉和智能设计。其中“城市大脑”致力于通过云计算和人工智能技术去解决依靠人脑无法解决的城市治理和发展问题。围绕这一目标,阿里巴巴目前的重点研究方向包括:多模态城市感知、交通预测与干预、并行异构计算加速、基于视频的行人与行为搜索识别、大规模城市视觉计算平台等。基于视频的城市对象感知几乎是所有工作的基础,也是阿里率先取得突破的技术方向之一。
而腾讯优图实验室在 9 月正式升级为腾讯计算机视觉研发中心,聚焦计算机视觉研究,专注在图像处理、模式识别、机器学习、数据挖掘等领域开展技术研发和业务落地。在技术上,优图重点专注于图像技术及人脸技术的研究及应用探索。图像技术包含图像识别、智能鉴黄、OCR 技术、图像分割以及超分辨率技术等。人脸识别包含人脸配准追踪技术、人脸核身技术、活体检测技术、海量人脸检索技术等。
目前优图 AI 技术已经广泛应用在零售、工业、社交娱乐、社会公益、道路感知、金融、鉴黄、安防、医疗、政务等领域,在手机 QQ、QQ 空间、QQ 音乐、微信、广点通、全民 K 歌、腾讯觅影等产品中落地,并与滴滴、公安部门、快递等行业已经有了合作案例。其中,智能医疗和自动驾驶是该实验室今年刚涉足的领域。
第四章:悬而未决的问题
计算机视觉是 AI 最为成熟的技术之一,其应用已经在政府、金融、互联网等行业市场率先落地。但是,整体而言,计算机视觉的应用仍处于起步状态。
当前市场关注度、渗透率及技术采用度相对较高的应用场景,如人脸识别、物体识别、物体检测等还停留在较为基础的物体探测阶段,在更具体的事件检测、更灵活的人机交互及更复杂的信息重组、自主行为等方面的应用明显不足。可以说, 当前的应用仅是冰山一角。
此外,自 2018 年起,人工智能商业化落地也成为了全行业都在重点关注的问题,计算机视觉技术的商业化产品最多,但是在行业内真正做到可以盈利的企业屈指可数。
与此同时,部分计算机视觉企业依靠竞赛刷榜、刷分来现实自身实力,虽然可以通过这种方式获得融资、招揽人才,但是对行业来说,落地才是硬道理。
在算法与硬件层,计算机视觉也同样遇到了一些短时间内无法解决的问题。
深度学习弥补了手工设计特征的缺陷,非线性变换可以做非常多次,特征表示能力显著提高,并且可以自动地训练所有参数,大幅提升了视觉算法的效率。但是,由于硬件方面如:设备外观、电池容量、设计成本、供应链等多方面的限制,算法无法在端侧最大限度地发挥作用,导致了最终结果受到了一定的限制。
虽然目前在边缘计算领域已经有不少企业进行了探索,但是要满足大规模应用的需求,尚需时日。
除了技术上的诸多问题外,2018 年的几次重大的数据泄露事故,让普通用户更加在意道德层面的问题,首当其冲的就是隐私安全性。
中国是人口大国,人口是一项巨大的优势,这也就决定了计算机视觉技术可以在中国取得更好的发展。但是,安装在道路上的摄像头、每个人手机上的镜头、行车记录仪、家用安防摄像头等等,都可以成为隐私泄露的窗口,此类消息在世界各地也屡见不鲜。
如何既满足技术发展的需求,同时保证用户在隐私方面的安全,这也是全行业仍在积极解决的问题。
总结
相信 2019 年计算机视觉方面的落地与技术研发,会更多的以人为中心来扩展。人与物体的结构化分析会成为主流,并且打通大数据分析这一环,为客户产生真正的价值,各个行业都会产生细分行业龙头。头部公司的行业特点会越来越鲜明,大家都会有自己侧重的业务点。
当然,在近两年也会有一些企业在浪潮中退出历史舞台。
从技术发展的趋势来看,现在是参数学习,未来是结构学习,再以后是目标学习。到那个阶段,计算机视觉或许可以理解出来一些意料之外的能力。
从行业发展来看,视觉 AI 可以把整个生态环境形成起来。AI 并非一个独立的行业,它更像是一种为所有传统行业提供变革契机的基础设施。因此在未来,具有核心平台化能力的 AI 企业才能够不被淘汰。
从人才培养来看,就视觉领域来说,随着 AI 的发展与普及,有更多的人才加入了学习计算机视觉技术的行列,但是大多数人还处在“正在进行时”的状态。行业需要真正有工程能力的人才,所以人才短缺的情况仍会继续,还是需要时间来培养。
随着万物互联的物联网时代的到来,AI 面临着全新的发展机遇,与物联网的结合将更为紧密。越来越多的物联网设备接入网络,通过嵌入式模组、计算单元、感知单元等将物理世界数字化,获取丰富的数据,大大提升 AI 的感知能力,为 AI 奠定坚实的数据基础,让充分的数据价值挖掘成为可能。
鸣谢
衷心感谢商汤科技、云从科技的技术专家本报告提供的指导与支持。
评论