阿里文娱资深算法专家任海兵：CV落地最大的挑战是算法的稳定性_AI&大模型_陈思

计算机视觉已发展多年，近年来，该技术已经成为了人工智能领域最为“吸睛”的方向之一，不仅吸引了大量的投资，也吸引了不少 AI 技术专家进行钻研。但是，随着整个 AI 行业“退烧”，落地难也成为了计算机视觉领域的难题，算法的质量及稳定性尤其引人关注。
在将于 7 月 24 日-25 日举办的AICon 全球人工智能与机器学习大会（上海站）上，阿里巴巴文娱资深算法专家任海兵将作为计算机视觉专题出品人，InfoQ 提前对任海兵老师进行了专访，请他来谈一谈深耕计算机视觉二十余年总结的经验与思考。

InfoQ：您是如何与计算机视觉结缘的，并在这个领域深耕二十余年的？

任海兵：本科五年级上学期的时候，我后来的博士导师徐光佑教授跟我说，计算机视觉是特别富有挑战性的研究领域，研究的课题都很困难，可以研究一辈子。我觉得：这个方向可以研究一辈子，感觉挺有意思的，所以就选择了计算机视觉做为我的直博专业方向。从此就跟计算机视觉结缘，一路下来二十多年了。

InfoQ：深耕计算机视觉二十余年，您能否用几句话总结下您的心得和收获？

任海兵：在这二十年中，我主要从事将计算机视觉算法落地工业场景的工作。最大的体会是，由于计算机视觉算法的局限性，我们需要对落地场景非常了解，定制化的设计解决方案，不能闭门造车。因为看似非常相似的落地场景，具体分析下来对算法的要求、评估方式等差别很大，常常需要结合实际场景定制化的去设计最优解决方案。那种希望用一种算法解决各种问题的想法是不切实际的。

InfoQ：过去一年中（2019 年），您认为在计算机视觉领域最值得关注的技术突破有哪些？能否谈谈原因。

任海兵：在过去的一年中，我最关注的技术是视频物体分割。2019 年出现的 space-time memory network 算法极大的提高了视频物体分割的准确性和计算速度，指出了视频物体分割技术的新发展方向。结合 CVPR 2020 该方向的论文投稿来看，视频物物体分割技术沿着这个方向将会有持续的提高，逐渐成熟起来。

InfoQ：能否请您用几个例子来谈谈，目前阿里巴巴在计算机视觉方面有哪些应用场景？

任海兵：阿里巴巴是个巨大的经济体，其业务涉及非常多的领域。其中很多领域中，计算机视觉起着重要的作用。例如智慧城市中的安防监控，智能交通中 3D 城市重建、文化娱乐产业中素材智能生产等。

InfoQ：在这些场景中，您负责的项目有哪些？有哪些重要的突破是您认为值得分享的？

任海兵：跟阿里文娱相关的场景是文化娱乐产业中素材智能生产。由于素材生产的目的是给人观看，因此不能有肉眼可见的瑕疵，这对素材智能生产提出了很高的要求。以前的素材生产，例如图像抠图，都是纯手工 PS，费时费力。这两年在图像分割领域取得了巨大的成就。既有图像语义理解、实例分割、全景分割，又有精细抠图(image matting)和显著性区域分割。综合这些技术，我们可以得到高精度的图像抠图解决方案。下面给出几个我们的抠图结果：

这些已经广泛用于阿里文娱的各项业务场景中。

InfoQ：从技术的研发到落地，您认为最大的挑战是什么？是否有可以分享的经验？

任海兵：我最近的工作主要跟视频内容智能生产相关，从这个方面看，目前最大的挑战还是算法的稳定性。在一个视频中，如果有一帧图像的结果不好，那么整个视频都是不合格的。我的一项经验是，有些领域目前业界算法还不能达到全自动的智能生产，例如视频抠图，但可以辅助很少量的人工交互，利用交互式视频抠图算法，达到效率和精度的一个平衡。

InfoQ：在您看来，计算机视觉接下来会如何发展？您和团队有什么重点规划？

任海兵：我认为，目前人工设计网络已经到达一个瓶颈阶段，接下来深度网络的自动搜索将引领计算机视觉登上一个新的高峰，我的团队也将在这个方向进行布局。

采访嘉宾介绍

任海兵，阿里巴巴资深算法专家，2003 年清华大学计算机系计算机应用专业博士毕业。先在三星中国技术院工作 11 年，先后担任计算机视觉和医疗图像算法团队负责人，曾带领团队获得 FRGC 人脸识别竞争第一名。2014 年加入英特尔中国研究院，从事机器人视觉感知研究工作。2018 年底，任海兵加入阿里文娱摩酷实验室，从事视频理解算法研究。任海兵在计算机视觉领域有 20 多年的研究经验，担任 CVPR、ICCV、ECCV 等国际顶级学术会议审稿人，发表 40 余篇论文，拥有 30 多项专利。

发布

暂无评论

创作场景

阿里文娱资深算法专家任海兵：CV 落地最大的挑战是算法的稳定性

评论

Netty 核心源码解读 —— 开篇

『设计模式』80年代的人们竟然领悟了设计模式-- 发布者/订阅者模式（包括发布者/订阅者模式和观察者模式的区别）

区块链BaaS应用平台的搭建，BaaS平台的应用场景

源中瑞智慧平安社区-为社区居民保驾护航

Netty 核心源码解读 —— ServerBootstrap 篇

已拿到蚂蚁金服Offer！阿里内部二十三万字Java面试题总结

进阶面试皆宜！阿里强推Java程序员进阶笔记，差距不止一点点

vivo 应用商店中的断点续传技术剖析

牛哇！看完阿里独家面试手册金三银四稳了，GitHub一天标星66K（Java岗）

完美解决Win10“无法登陆到你的账户”问题，无法登录账户的全方面解决方案！

智慧公安重点人员系统开发，情报研判管控平台的搭建

iOS面试进阶&程序员养成文件（附下载地址）

第九周学习总结于心得

推荐35款可以快速提升工作效率的软件

hive的DQL查询语法详细剖析

JDBC--批量插入

【Mysql实战】问题分析利器之binlog

2021最新分享快手/百度/蚂蚁/字节面经总结

MySQL 索引原理图文讲解

区块链数字版权-重新定义版权保护

区块链电子合同--助推智慧政务

nsq源码阅读之nsqd总体流程

百度Feed稳定性架构实践

大多数人不知道的Java知识 - Java内省机制

GitHub已爆火！2021金三银四Java面试突击手册，已助力多人拿到offer

OKR之一

『设计模式』以为是个王者，后来班主任来了！设计模式--二五仔的观察者模式

MapReduce的运行机制详解

Rust从0到1-基础概念-变量

智慧公安重点人员系统开发，情报研判管控平台的搭建

【里程碑】Linkis 1.0.0-RC1 版本发布

创作场景

阿里文娱资深算法专家任海兵：CV 落地最大的挑战是算法的稳定性

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载