写点什么

计算机视觉热潮的“B 面”:技术或遇瓶颈,落地生死局

  • 2020-04-30
  • 本文字数:4270 字

    阅读完需:约 14 分钟

计算机视觉热潮的“B面”:技术或遇瓶颈,落地生死局

当潮水褪去,就知道是谁在裸泳。这场计算机视觉热潮背后的“冷”不容被忽视。


计算机视觉可谓是 AI 最火爆的技术领域,这个赛道上诞生了一批最炙手可热的明星独角兽,学研与创投风潮一浪盖过一浪…


从事计算机视觉算法研发多年的 CV 领域创业者李寻欢见证了这个行业的起伏。


我 10 年开始找工作,但当时没什么工作可以找,国内大厂基本上不需要这个岗位,感觉跟我最相近的岗位是懂 PS 的美工。


很快,情况就发生了变化。


到了 2012 年左右,因为 GPU 加速的红利,计算机视觉突然就“尘土飞扬”了起来,后来不少 AI 公司都起来了。


旷视、依图等 CV 独角兽都是在那一年创立的。计算机视觉创业在 2015 年形成了一个小高峰,据前瞻产业研究院统计,大约有 40 家公司在这一年成立。



2016-2018 年,在由深度学习引发的第三次 AI 浪潮助推下,计算机视觉按下了“快进键”,尤其是在创投圈,大额融资频现,简直成了资本宠儿,吸金能力无敌,单 2018 年一年,该领域融资额高达 230 亿。与此同时,资本的涌入也令计算机视觉技术快速应用到各个行业,走到普罗大众身边。


2018 年是 AI 商业化落地的元年,处在焦点中的计算机视觉领域也迎来了落地的关键阶段,不过这个进程却进行的并不尽如人意,能真正实现盈利的公司寥寥无几。


很多从业者切身感受到,到了 2019 年,计算机视觉行业明显不如上一年热闹了。


前两年大家都在瞩目的 AI 独角兽,我现在都时不时听到圈中好友抱怨生活艰难,开始四处‘张望了’,李寻欢感叹道。


热潮渐冷,关于计算机视觉已触及天花板的论调也此起彼伏。

CV 技术或已至瓶颈

近一年多来,商汤、旷视、云从等 CV 独角兽频频传出有登陆资本市场的计划及动作,希望成为“AI 第一股”的旷视,IPO 之路波折不断,现在距离递交招股书已经过去了 8 个月,仍迟迟没有准信儿。


不久前,商汤科技又被曝出 IPO 折戟,何时上市前途未卜。有专家犀利指出商汤等头部计算机视觉公司技术同质化严重,没有建立起坚固的技术壁垒。


这不禁令人深思,计算机视觉技术还有创新力吗?


曾先后在 360AI 研究院、陌陌深度学习实验室工作,拥有 6 年计算机视觉从业经验的言有三分析,很多 CV 公司技术同质化的原因,一是因为很多创业公司原先是从学校实验室起家的,在学术界时,大家关注的内容有很大一部分重叠,导致创业后业务线也有很大一部分重合。另一方面,人才的相互流动也进一步促进了这个问题。


技术同质化是绝对的,当然这个同质化是因为一些底层的基本技术,每一家公司自己都必须要掌握,所以会存在同质化,就好像实时聊天软件,很多公司内部都要自己有一套,它们虽然同质但必须存在,而且确实技术差不多。


值得一提的是,2018 年,商汤科技副总裁柳钢曾就“算法驱动”发表过评论,他表示,现在计算机视觉还没有到算法同质化的阶段,而且在未来十年也到不了,只会差距越来越大,不存在一个算法通吃天下(的情况)。


言有三认为,从某种意义上来说,计算机视觉现在的确已经进入了瓶颈期。


以图像分类、目标检测、图像分割为代表的一些基础技术经过了近几年的发展后,精确度已经达到产业落地水平,但剩下的一些问题比较难攻克,如非常细粒度的分类,非常小和模糊的目标检测和分割,以及如何保证在复杂光照变化下的分割结果的稳定性等。此外,从图像迁移到视频还面临着平滑性问题,图像中的细微不足在视频中容易被放大。


去年 2 月,计算机视觉奠基人 Alan L. Yuille 曾撰文表达他对当下计算机视觉技术发展的担忧,他认为,计算机视觉的发展面临瓶颈,深度学习在其中起到的作用有限,需要找到新的突破口。


深度学习的进展让 CV 识别准确度大为提高,但深度学习过于依赖大量的标注数据,这让计算机视觉研究人员在简单却繁杂的标注任务上耗费了大量时间,而忽视了更为重要的任务。这两年,业内对于深度学习陷入瓶颈的讨论也越来越多。


过去这一年多来,计算机视觉技术的发展主要在两个方向:一个是继续解决原来的老问题中的难题,如跨年龄、大姿态、有遮挡的人脸识别,上述领域的研究一直都有一些进展,但能算得上“突破性”的,还比较少。


另一个则是新的研究方向,在过去一年里,针对人脸的各种编辑技术得到了快速发展并很快应用落地,如 AI“换脸”,这可以看作是一项突破性的进展。


不过应当注意的是,AI 换脸技术虽然火热,但因其滥用也频频引发的数据隐私安全问题。当 CV 技术与人们的实际应用需求相结合的时候,如何从技术的角度设置多重保障来保护用户隐私,如何防止技术被滥用,这也是人们需要反思的。


计算机视觉算法还存在较大的局限性,例如现在应用广泛的视频监控技术还不是很成熟,深度神经网络在涉及到理解可视化数据的上下文和描述不同对象之间的关系时常常失效,纯无监督学习难度大等,短期内不太可能出现突破性的技术解决方案。

落地之困

计算机视觉之所以火,一个原因是“好落地”,相较其他 AI 领域,它落地更容易也更顺利。但真的深入到各个行业的时候,很多 CV 公司却发现实际情况并没有想象中简单,走向实用之路任重道远。


从 2018 年开始,CV 公司的商业化变现压力陡增,行业的洗牌愈发加剧,那些找不到合适的落地场景,抑或是还没有产品和业务线,生态残缺的,商业模式不清晰的公司,很可能将走上生死场。


落地落不下去,变不了现,问题到底出在哪里?


上文我们谈到了技术上的同质化。技术观察者李枫向 InfoQ 表示,计算机视觉热潮也导致了大家在落地方向上的同质化,很多公司扎堆到某几个热门场景去落地,这实际上也降低了他们的核心竞争力。


扎堆现象比较严重的是安防场景。智能安防是计算机视觉最主要的应用场景,2017 年,安防应用占中国计算机视觉应用的比重高达 67.8%。


安防已成一片红海。商汤、旷视、依图、云从等“CV 四小龙”等都在该领域作了重要布局,业务同质化比较严重。在这个赛道上,还有“海大宇”等传统的安防巨头,BAT 等互联网巨头近年来也加速入局,对于中小 CV 公司来说,这意味着面临更大的竞争和生存压力。


除安防外,CV 四小龙还在金融、汽车、手机、新零售等场景都推出了相应产品落地,业务高度层叠,交锋频繁且激烈。以智能手机场景为例,旷视和商汤是为了抢夺市场,可以说是水火不容,旷视副总裁吴文昊曾喊话对手,“一定要把商汤挤出去”。


找到场景后,要完成从技术到场景再到盈利的商业闭环,还需要掌握个中的平衡之道。不少 CV 公司以算法起家,技术基因浓厚,往往容易忽视工程能力。


李寻欢在创业之初就遇到了这个问题。


刚创业时,他的团队主攻研发 2 款产品。在研发过程中,因为团队都是技术出身,在软件方面的坑,倒是基本能很快填上。“我们早期的人写代码的速度都挺快的,常常每天更改上千行代码,软件部分迭代速度很快,对传统的算法做了很多改进,也发明出了很多创新的算法,这也成为后来产品与可比产品的差异化优势。


遇到的棘手问题多数跟硬件相关。


工业级产品的稳定性非常重要,要达到工业级别的稳定性并非一朝一夕能完成,需要长时间的测试迭代。因为涉及到的硬件研发周期耗费的时间比较长,有一款产品的发布日期比计划晚了一个月。


现在再回过头来看,李寻欢总结出了他和团队在推进技术成果落地的过程中,踩过的 3 个“坑”


第一:产品还没研发出来,就着急跟项目。


产品研发期间,时不时有朋友找过来给我们推荐项目,有的价值几万,有的几十万、上百万,诱惑其实挺大的,我们也花过一些时间跟进,但大部分没有结果,这个回来看,这其实就是“坑”。现在有一些不想做的项目推进来,都不会浪费时间去接触了,实在是因为没有时间,主要矛盾理清楚了,很多事情都顺了。


第二:没有认清目标,产品研发进度冒进。


因为没有认清楚目标,我们的产品研发进度非常迅猛,团队人员又实在有限,最后反省再三,才矫正回来,以首要产品为核心方向,制定了具体且集中的路线。


第三:切忌刚创业就狂招人。


现在想来,如果创业初期,一下子招很多人,可能就直接掉进“坑”里了,再出来,成本就高了。


那些踩过的坑,终于都趟成了“路”,累积成创业路上的宝贵经验。

研究热潮背后

学术界也兴起了“计算机视觉研究热”。


言有三不禁感慨,现在行业的繁荣与他在 2012 年刚入行时,简直发生了太大的变化。


他读书时一直在做传统图像算法,当时最直观的感觉就是,行业的门槛很高,因为现成可以借鉴的技术不多,要做出创新性的研究也很难,这也直接导致了从业者非常少。


现在整个 CV 的工具链已非常完善,加之良好的开源环境降低了 CV 技术入门门槛,越来越多的学者被吸引到这个领域来研究,从业者数量近年来有呈现井喷势头,甚至“全民计算机视觉”。


《斯坦福 2019 全球 AI 报告》显示,从 2014 年开始,“计算机视觉”类论文一直是规模最大的 AI(论文)子类之一。CVPR 是参加人数最多的 AI 会议之一。


最近几年,计算机视觉顶会的论文投稿量也在激增。2016-2020 年,CVPR 论文有效投稿数量分别为,2123 篇、2145 篇、2620 篇、3303 篇、5160 篇和 6656 篇,增幅不断扩大。


不过,论文的质量却没有与攀升的数量形成正比。最近两年,CVPR 的论文收录量已连续“二连降”,2019 年收录论文 1300 篇,接收率为 25%,CVPR 2020 接收率降至 22%。


现在的博士生、研究生没有一篇顶会论文基本上很难找到好的工作。一位匿名知乎网友奉劝大家不要再选计算机视觉作为研究方向了,他以亲身经历感受到这个方向已经很难找到合适的工作了,因为研究已遭遇瓶颈,很难有新的东西出来,行业也趋于饱和,要想进大厂,学历和履历都得拔尖儿。


“有些新晋公司为了博名气拉投资会刷榜,而顶会门槛的降低以及论文指标化与薪资、就业机会以及升职挂钩,甚至催生了团队代写论文的产业链”,言有三注意到,他希望大家能够将重点放在实实在在利用 CV 技术去解决实际问题上。


现在的 CV 及 AI 研究似乎变得越来越“扁平快”了,CV 领域底层的理论发展和经典方向的研究速度在放缓,而新涌现的应用却在加快。“某种程度上,这是行业成熟的必然规律,但还不到饱和状态,只是那种新鲜感可能没了”,言有三表示。


技术研究终究是一个不能浮躁的活儿。


目前学术界在三维的图像视频处理、视觉 SLAM、图形学、多模态技术的融合、少样本、弱监督及无监督等前沿 CV 方向的研究十分热门,但相对还不成熟。言有三认为,下一个重大技术突破可能会视觉 SLAM 和图形学方向出现。

结语

当然,一些不好的现象只是行业一个侧面,不能否定的是,近些年,计算机视觉领域确实涌现了大量的研究成果和技术创新,我们也能切实感受到 CV 技术应用到了生活之中。


但历史的风口论无数次告诉我们,当潮水褪去,就知道是谁在裸泳。当我们在期待一个火爆的风潮诞生革命性的成果时,也需要警惕它背后的那些“暗影”。


(应受访者要求,文中李寻欢、言有三为化名或网名)


2020-04-30 13:352549
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 539.7 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

java培训如何用反射做简易 Spring IOC 容器

@零度

Java springloc

揭秘!网易有道技术岗实习生都在做什么?

有道技术团队

招聘 实习 网易有道

利用亚马逊云科技整个自用免费网盘

亚马逊云科技 (Amazon Web Services)

Builder 专栏

2022年2月视频行业用户洞察:冬奥吸引全民关注拉动视频平台出圈

易观分析

短视频 冬奥会

微服务架构下消息服务多通道设计思路

全象云低代码

微服务 低代码 后端开发 消息中间件 后端技术

如何升级到 React 18

CRMEB

容器化 | K8s 部署 RadonDB MySQL Operator 和集群

RadonDB

MySQL 数据库 Kubernetes 高可用 RadonDB

你的“数学潜意识”原来可以被唤醒!

博文视点Broadview

从HDFS的写入和读取中,我发现了点东西

华为云开发者联盟

hdfs HDFS写入 HDFS读取 文件读取

对于金融机构而言,为什么选择私有化IM比企业微信、钉钉更好?

WorkPlus

加快云原生技术转型, 智能调度登陆华为云DevOps: 增速,节源

华为云开发者联盟

软件 DevOps 代码托管 智能调度 华为云DevOps

ABAP 文件上/下载

Jasen Ye

upload abap download template GRAPHICS

ABAP excel数据上传函数改造

Jasen Ye

Excel upload abap

web前端培训如何用CSS来实现透明方格

@零度

CSS web前端

WebGL 及其在 WebRTC 中的应用

ZEGO即构

WebRTC WebGL 实时音视频 即构科技

实践丨SpringBoot整合Mybatis-Plus项目存在Mapper时报错

华为云开发者联盟

spring 容器 Spring Boot 测试 Mybatis-Plus

云原生时代已来,计算机教育如何因「云」而变?

阿里云弹性计算

云原生 ECS 计算机教育

SeaTunnel 在 oppo 的特征平台实践 | ETL 平台数据处理集成

Apache SeaTunnel

Big Data 大数据平台 大数据开发 apache 社区 opensource

大数据培训连续登录经典面试案例

@零度

大数据

OceanBase 源码解读(九):存储层代码解读之「宏块存储格式」

OceanBase 数据库

源码剖析 oceanbase

郑泽康:一名热爱技术的“保安”|OneFlow U

OneFlow

人工智能 机器学习 深度学习 程序人生 cuda

项目管理标准化的武林秘籍

大智若愚

团队管理 项目管理 标准化 软技能 标准框架

Meetup预告|云原生时代热门监控利器解析与应用

云智慧AIOps社区

运维 云原生 安全 监控工具

数仓如何设置大小写不敏感函数

华为云开发者联盟

MySQL DWS GaussDB(DWS) 大小写不敏感函数 GUC参数

从多快好省到好快省多,您的项目管理走对了吗?

禅道项目管理

项目管理

知识管理在企业竞争发展中的作用

小炮

知识管理

【直播回顾】OpenHarmony知识赋能第四期第三课——I2C驱动开发

OpenHarmony开发者

OpenHarmony 驱动开发

速度和质量不可兼得,为什么DevOps落地如此困难?

SoFlu软件机器人

Facebook 开源 Golang 实体框架 Ent 现已支持 TiDB

PingCAP

一首古诗带来的图数据库大冒险

NebulaGraph

知识图谱 实践案例 分布式图数据库

API成数据安全最大风险敞口 如何打赢数字时代的“数据保卫战”?

WorkPlus

计算机视觉热潮的“B面”:技术或遇瓶颈,落地生死局_AI&大模型_刘燕_InfoQ精选文章