当潮水褪去,就知道是谁在裸泳。这场计算机视觉热潮背后的“冷”不容被忽视。
计算机视觉可谓是 AI 最火爆的技术领域,这个赛道上诞生了一批最炙手可热的明星独角兽,学研与创投风潮一浪盖过一浪…
从事计算机视觉算法研发多年的 CV 领域创业者李寻欢见证了这个行业的起伏。
我 10 年开始找工作,但当时没什么工作可以找,国内大厂基本上不需要这个岗位,感觉跟我最相近的岗位是懂 PS 的美工。
很快,情况就发生了变化。
到了 2012 年左右,因为 GPU 加速的红利,计算机视觉突然就“尘土飞扬”了起来,后来不少 AI 公司都起来了。
旷视、依图等 CV 独角兽都是在那一年创立的。计算机视觉创业在 2015 年形成了一个小高峰,据前瞻产业研究院统计,大约有 40 家公司在这一年成立。
2016-2018 年,在由深度学习引发的第三次 AI 浪潮助推下,计算机视觉按下了“快进键”,尤其是在创投圈,大额融资频现,简直成了资本宠儿,吸金能力无敌,单 2018 年一年,该领域融资额高达 230 亿。与此同时,资本的涌入也令计算机视觉技术快速应用到各个行业,走到普罗大众身边。
2018 年是 AI 商业化落地的元年,处在焦点中的计算机视觉领域也迎来了落地的关键阶段,不过这个进程却进行的并不尽如人意,能真正实现盈利的公司寥寥无几。
很多从业者切身感受到,到了 2019 年,计算机视觉行业明显不如上一年热闹了。
前两年大家都在瞩目的 AI 独角兽,我现在都时不时听到圈中好友抱怨生活艰难,开始四处‘张望了’,李寻欢感叹道。
热潮渐冷,关于计算机视觉已触及天花板的论调也此起彼伏。
CV 技术或已至瓶颈
近一年多来,商汤、旷视、云从等 CV 独角兽频频传出有登陆资本市场的计划及动作,希望成为“AI 第一股”的旷视,IPO 之路波折不断,现在距离递交招股书已经过去了 8 个月,仍迟迟没有准信儿。
不久前,商汤科技又被曝出 IPO 折戟,何时上市前途未卜。有专家犀利指出商汤等头部计算机视觉公司技术同质化严重,没有建立起坚固的技术壁垒。
这不禁令人深思,计算机视觉技术还有创新力吗?
曾先后在 360AI 研究院、陌陌深度学习实验室工作,拥有 6 年计算机视觉从业经验的言有三分析,很多 CV 公司技术同质化的原因,一是因为很多创业公司原先是从学校实验室起家的,在学术界时,大家关注的内容有很大一部分重叠,导致创业后业务线也有很大一部分重合。另一方面,人才的相互流动也进一步促进了这个问题。
技术同质化是绝对的,当然这个同质化是因为一些底层的基本技术,每一家公司自己都必须要掌握,所以会存在同质化,就好像实时聊天软件,很多公司内部都要自己有一套,它们虽然同质但必须存在,而且确实技术差不多。
值得一提的是,2018 年,商汤科技副总裁柳钢曾就“算法驱动”发表过评论,他表示,现在计算机视觉还没有到算法同质化的阶段,而且在未来十年也到不了,只会差距越来越大,不存在一个算法通吃天下(的情况)。
言有三认为,从某种意义上来说,计算机视觉现在的确已经进入了瓶颈期。
以图像分类、目标检测、图像分割为代表的一些基础技术经过了近几年的发展后,精确度已经达到产业落地水平,但剩下的一些问题比较难攻克,如非常细粒度的分类,非常小和模糊的目标检测和分割,以及如何保证在复杂光照变化下的分割结果的稳定性等。此外,从图像迁移到视频还面临着平滑性问题,图像中的细微不足在视频中容易被放大。
去年 2 月,计算机视觉奠基人 Alan L. Yuille 曾撰文表达他对当下计算机视觉技术发展的担忧,他认为,计算机视觉的发展面临瓶颈,深度学习在其中起到的作用有限,需要找到新的突破口。
深度学习的进展让 CV 识别准确度大为提高,但深度学习过于依赖大量的标注数据,这让计算机视觉研究人员在简单却繁杂的标注任务上耗费了大量时间,而忽视了更为重要的任务。这两年,业内对于深度学习陷入瓶颈的讨论也越来越多。
过去这一年多来,计算机视觉技术的发展主要在两个方向:一个是继续解决原来的老问题中的难题,如跨年龄、大姿态、有遮挡的人脸识别,上述领域的研究一直都有一些进展,但能算得上“突破性”的,还比较少。
另一个则是新的研究方向,在过去一年里,针对人脸的各种编辑技术得到了快速发展并很快应用落地,如 AI“换脸”,这可以看作是一项突破性的进展。
不过应当注意的是,AI 换脸技术虽然火热,但因其滥用也频频引发的数据隐私安全问题。当 CV 技术与人们的实际应用需求相结合的时候,如何从技术的角度设置多重保障来保护用户隐私,如何防止技术被滥用,这也是人们需要反思的。
计算机视觉算法还存在较大的局限性,例如现在应用广泛的视频监控技术还不是很成熟,深度神经网络在涉及到理解可视化数据的上下文和描述不同对象之间的关系时常常失效,纯无监督学习难度大等,短期内不太可能出现突破性的技术解决方案。
落地之困
计算机视觉之所以火,一个原因是“好落地”,相较其他 AI 领域,它落地更容易也更顺利。但真的深入到各个行业的时候,很多 CV 公司却发现实际情况并没有想象中简单,走向实用之路任重道远。
从 2018 年开始,CV 公司的商业化变现压力陡增,行业的洗牌愈发加剧,那些找不到合适的落地场景,抑或是还没有产品和业务线,生态残缺的,商业模式不清晰的公司,很可能将走上生死场。
落地落不下去,变不了现,问题到底出在哪里?
上文我们谈到了技术上的同质化。技术观察者李枫向 InfoQ 表示,计算机视觉热潮也导致了大家在落地方向上的同质化,很多公司扎堆到某几个热门场景去落地,这实际上也降低了他们的核心竞争力。
扎堆现象比较严重的是安防场景。智能安防是计算机视觉最主要的应用场景,2017 年,安防应用占中国计算机视觉应用的比重高达 67.8%。
安防已成一片红海。商汤、旷视、依图、云从等“CV 四小龙”等都在该领域作了重要布局,业务同质化比较严重。在这个赛道上,还有“海大宇”等传统的安防巨头,BAT 等互联网巨头近年来也加速入局,对于中小 CV 公司来说,这意味着面临更大的竞争和生存压力。
除安防外,CV 四小龙还在金融、汽车、手机、新零售等场景都推出了相应产品落地,业务高度层叠,交锋频繁且激烈。以智能手机场景为例,旷视和商汤是为了抢夺市场,可以说是水火不容,旷视副总裁吴文昊曾喊话对手,“一定要把商汤挤出去”。
找到场景后,要完成从技术到场景再到盈利的商业闭环,还需要掌握个中的平衡之道。不少 CV 公司以算法起家,技术基因浓厚,往往容易忽视工程能力。
李寻欢在创业之初就遇到了这个问题。
刚创业时,他的团队主攻研发 2 款产品。在研发过程中,因为团队都是技术出身,在软件方面的坑,倒是基本能很快填上。“我们早期的人写代码的速度都挺快的,常常每天更改上千行代码,软件部分迭代速度很快,对传统的算法做了很多改进,也发明出了很多创新的算法,这也成为后来产品与可比产品的差异化优势。
遇到的棘手问题多数跟硬件相关。
工业级产品的稳定性非常重要,要达到工业级别的稳定性并非一朝一夕能完成,需要长时间的测试迭代。因为涉及到的硬件研发周期耗费的时间比较长,有一款产品的发布日期比计划晚了一个月。
现在再回过头来看,李寻欢总结出了他和团队在推进技术成果落地的过程中,踩过的 3 个“坑”
第一:产品还没研发出来,就着急跟项目。
产品研发期间,时不时有朋友找过来给我们推荐项目,有的价值几万,有的几十万、上百万,诱惑其实挺大的,我们也花过一些时间跟进,但大部分没有结果,这个回来看,这其实就是“坑”。现在有一些不想做的项目推进来,都不会浪费时间去接触了,实在是因为没有时间,主要矛盾理清楚了,很多事情都顺了。
第二:没有认清目标,产品研发进度冒进。
因为没有认清楚目标,我们的产品研发进度非常迅猛,团队人员又实在有限,最后反省再三,才矫正回来,以首要产品为核心方向,制定了具体且集中的路线。
第三:切忌刚创业就狂招人。
现在想来,如果创业初期,一下子招很多人,可能就直接掉进“坑”里了,再出来,成本就高了。
那些踩过的坑,终于都趟成了“路”,累积成创业路上的宝贵经验。
研究热潮背后
学术界也兴起了“计算机视觉研究热”。
言有三不禁感慨,现在行业的繁荣与他在 2012 年刚入行时,简直发生了太大的变化。
他读书时一直在做传统图像算法,当时最直观的感觉就是,行业的门槛很高,因为现成可以借鉴的技术不多,要做出创新性的研究也很难,这也直接导致了从业者非常少。
现在整个 CV 的工具链已非常完善,加之良好的开源环境降低了 CV 技术入门门槛,越来越多的学者被吸引到这个领域来研究,从业者数量近年来有呈现井喷势头,甚至“全民计算机视觉”。
《斯坦福 2019 全球 AI 报告》显示,从 2014 年开始,“计算机视觉”类论文一直是规模最大的 AI(论文)子类之一。CVPR 是参加人数最多的 AI 会议之一。
最近几年,计算机视觉顶会的论文投稿量也在激增。2016-2020 年,CVPR 论文有效投稿数量分别为,2123 篇、2145 篇、2620 篇、3303 篇、5160 篇和 6656 篇,增幅不断扩大。
不过,论文的质量却没有与攀升的数量形成正比。最近两年,CVPR 的论文收录量已连续“二连降”,2019 年收录论文 1300 篇,接收率为 25%,CVPR 2020 接收率降至 22%。
现在的博士生、研究生没有一篇顶会论文基本上很难找到好的工作。一位匿名知乎网友奉劝大家不要再选计算机视觉作为研究方向了,他以亲身经历感受到这个方向已经很难找到合适的工作了,因为研究已遭遇瓶颈,很难有新的东西出来,行业也趋于饱和,要想进大厂,学历和履历都得拔尖儿。
“有些新晋公司为了博名气拉投资会刷榜,而顶会门槛的降低以及论文指标化与薪资、就业机会以及升职挂钩,甚至催生了团队代写论文的产业链”,言有三注意到,他希望大家能够将重点放在实实在在利用 CV 技术去解决实际问题上。
现在的 CV 及 AI 研究似乎变得越来越“扁平快”了,CV 领域底层的理论发展和经典方向的研究速度在放缓,而新涌现的应用却在加快。“某种程度上,这是行业成熟的必然规律,但还不到饱和状态,只是那种新鲜感可能没了”,言有三表示。
技术研究终究是一个不能浮躁的活儿。
目前学术界在三维的图像视频处理、视觉 SLAM、图形学、多模态技术的融合、少样本、弱监督及无监督等前沿 CV 方向的研究十分热门,但相对还不成熟。言有三认为,下一个重大技术突破可能会视觉 SLAM 和图形学方向出现。
结语
当然,一些不好的现象只是行业一个侧面,不能否定的是,近些年,计算机视觉领域确实涌现了大量的研究成果和技术创新,我们也能切实感受到 CV 技术应用到了生活之中。
但历史的风口论无数次告诉我们,当潮水褪去,就知道是谁在裸泳。当我们在期待一个火爆的风潮诞生革命性的成果时,也需要警惕它背后的那些“暗影”。
(应受访者要求,文中李寻欢、言有三为化名或网名)
评论