计算机视觉,是人工智能的重要分支领域之一,计算机视觉既是工程领域,也是科学领域中的一个富有挑战性的重要研究领域。计算机视觉是一门综合性的学科,它已经吸引了来自各个学科的众多研究者参加到对它的研究之中。
2017 年 6 月 2 日 -4 日,中国图像图形学会主办的高端学术交流活动:“CSIG 图像图形学科前沿讲习班”(Advanced Lectures on Image and Graphics,简称 IGAL)将在北京举行。讲习班邀请了各大高校的知名专家学者,他们从各自研究的角度深入解读计算机视觉领域的前沿技术和应用。
我们借此机会采访到本次讲习班的学术主任王亮博士,来为我们针对目前计算机视觉的发展现状做一些简单的分析。如果读者想要更加深入了解学习计算机视觉方面的知识,可以报名参加 CSIG 图像图形学科前沿讲习班(活动链接:www.csig.org.cn/igal),与专家老师们做进一步交流。
现在计算机视觉已成为了人工智能科技公司研究的重要方向,作为代表方向之一的人脸识别成为其中重要的一个研究分支,但得到过度关注的人脸识别是否是未来计算机视觉的发展方向?而在学术界的技术专家也在向工业界转型,学界与业界的关注点到底有什么区别?新技术不断涌现,身在技术圈的技术人如何看待这些新兴技术,想要投身于人工智能研究的年轻学者们应该从什么方向开始努力?
王亮博士将从他专业的角度来为我们解答。
视频监控技术目前还不成熟
王亮博士做过一系列关于动作识别、步态识别的研究,这些技术大量应用在视频监控上。虽然研究者们在这些方面已经做了大量工作,近期也取得了较大的进展,但是在王亮博士看来,目前还远不能说当前的视频监控技术已经成熟。王亮博士做出了如下分析:
“事实上,我们算法所做的实验大多是基于受限环境下所采集的视频数据,这种数据一般来说是比较容易的,即背景简单、个体单一,而且没有较大的遮挡。
但是对于实际视频监控而言,视频中个体尺度各异、视频分辨率低、个体部分遮挡、拍摄视角变化等问题都会影响到算法的实际应用效果。此外,除了上面提到的个体识别以外,还有许多类型的群体识别,比如打架等异常行为检测、群体事件识别、人群密度估计、人群流向预测等。这些群体识别比个体识别更加复杂,存在的挑战和困难也更多。综上所述,现有的视频监控技术还远远没有达到成熟的水平。”
图像数据集仍有不足
在图像识别方面,李飞飞团队制作的数据集 ImageNet 已经存在了很久,虽然如此,王亮博士认为它仍旧是比较权威、被广泛应用的数据集,尤其是在目标识别模型的性能评估方面。该数据集至少在很长一段时间内还会被继续大量使用,因为除了应用在目标识别任务上,它还被广泛用于其它视觉任务,例如使用 ImageNet 数据集进行目标检测、分割等模型的预训练。
在近几年,李飞飞团队又做出了新的图像与语言结合的数据集 Visual Genome,香港中文大学汤晓鸥团队也做出了专注人脸识别的数据集 WIDERFACE。这些数据集都是最近公开的新数据集。
客观来说,任何一个数据集的建立都会存在一定的不足,这取决于实际任务需求和客观资源限制等诸多因素,例如一个可能的问题就是样本类别不均衡。当然,在客观世界中,可能实际样本分布原本就是很不均衡的,但是从模型训练的角度来说,我们通常希望样本能均衡一些,这样训练出来的模型就不会偏向某些类别,进而不同类别的识别性能不会相差太多。
王亮博士举了一个有趣的例子:“ImageNet 数据集中属于人这个类别的样本特别多,但关于鸵鸟类别的样本就比较少,这样训练出来的模型对于人的分类性能就比鸵鸟要高很多,这就是样本不均衡所导致的结果。”样本不均衡的情况甚至会有一些极端的体现,“再比如,LFW 人脸数据集也存在比较严重的类别不均衡问题,属于一个类别的样本最多的有几百,而最少的甚至只有一个样本。”
无论是 Visual Genome 还是 WIDERFACE,它们都是在特定的任务情况下把数据集做得规模更大、细节更多、潜在用途更多一些。
以 Visual Genome 为例,王亮博士为我们进行了讲解:
“Visual Genome 数据集其实是对目标识别数据集进行了扩充,在原有只提供目标类别的基础上,增加多种其它标注信息,包括目标属性、目标位置、目标与目标之间关系、目标文字描述等。
这样的数据集除了可以应用于目标识别任务之外,还可以用于图像描述生成、目标关系预测、视觉问答等其它任务。所以,数据集这个方面肯定会越做越好,或许在未来一些规模更大、更普适的数据集会被提出。
但是,值得注意的是,现在做得较多的都是图像数据集,随着视频分析技术的快速发展,会对相关视频数据库产生较大的需求,所以希望以后会有更多视频数据集。”
纯无监督学习实现难度大,GAN 未来很有潜力
由于标记数据的成本较高,而且生活中大部分数据都是无标记的,要想充分利用这种无标记数据,需要应用无监督学习算法。
早期的玻尔兹曼机和自编码机都是自深度学习流行起来,是典型的无监督学习的应用成果。它们通过重构数据自身的方式或者生成数据的方式来对无标记数据的潜在真实分布进行建模。
王亮博士指出,无监督学习存在一个问题是,通过它学习得到的模型性能通常要比监督学习低许多。因为它相对监督学习来说,毕竟缺少大量标记信息,目前无法学习到非常具有判别力的特征表示。事实上,当前要做纯粹的无监督学习可能并不是特别现实,但如果能够利用少量的有标记数据辅助来做半监督学习,可能会比较可行一些。
对抗生成网络(GAN)是最近热度较高的一种模型。它的基本原理是它有两个模型:一个生成器,一个判别器。判别器的任务是判断生成的图像是否看起来“自然”,换句话说,是否像是人为(机器)生成的。而生成器的任务是,顾名思义,生成看起来‘自然’的图像,要求与原始数据分布尽可能一致。
对于 GAN,王亮博士说:“它的难点可能在于训练一个好的生成器比较困难,其训练过程通常并不是特别稳定。尽管 WGAN 的提出可以在一定程度上缓解这一问题,但是我们在一些实验上发现,其效果并没有原始的 GAN 好。当然,GAN 及其相关模型才刚刚起步,潜力很大,其应用范围有待进一步拓宽。”
计算机视觉发展历程中的关键技术节点
从 CNN 到 GAN,神经网络模型在不断的进步,同时也影响到了计算机视觉的发展,王亮博士从视频技术的角度为我们分析了计算机视觉发展过程中的关键技术节点:
“2012 年 ImageNet 竞赛上,使用了 CNN 的模型性能比传统方法提升了大概 11 个百分点。自此以后,CNN 强大的特征学习能力在不同视觉任务中都得到了证明,而且刷新了当时很多任务的最好结果。
当时的基于 CNN 的网络模型叫做 AlexNet,这个网络只有 8 层,后来出现的 CNN 模型包括 VGGNet、GoogleNet、ResNet 等网络层数变得越来越深,从当时几层到几十层,进而发展到现在的数百层甚至上千层。事实证明,网络越深其学习到的特征判别力越强,所以每一个新型深度网络的提出都阶梯式地推动了视觉领域快速发展。
从 CNN 这方面来讲,AlexNet、VGGNet、GoogleNet 和 ResNet 都是很重要的技术结点。
对于视频方面来讲,2011 年出现的 3DCNN 可能算是它的一个初始技术结点,其后续被扩展成一般化的视频特征提取网络 C3D。在 2014 年前后 RNN、LSTM 等时序模型的大量出现,也是处理视频这种时序数据的非常重要的技术结点。”
计算机视觉的哪些分支值得关注
计算机视觉毕竟是一个比较偏实际应用的学科,它的研究内容大多还是由实际应用来驱动的。有人认为现在做计算机视觉的公司太多专注于研究人脸识别这样的功能分支,为什么那么多公司都在专注做人脸识别这样一个任务呢?
王亮博士这样分析:“个人认为肯定还是受市场需求导向所致的。事实上,人脸识别在很多领域都有应用需要,正是由于这些需求从而推动了很多人去做这样一个事情。对于计算机视觉几个核心问题例如语义图像分割等,也有实际需求在推动一部分人研究。比如最近无人机、无人驾驶比较火,这些任务都需要视频场景解析技术,因此视频语义分割技术吸引了大家越来越多的注意,相应的研究人员数量自然而然会增加。”
而作为研究人员,王亮博士认为应该更多关注两个方面:
一、更多地研究基础理论
在计算机视觉算法的理论层面去做一些事情。比如,大家都知道现在计算机视觉的很多技术都是基于深度学习的,但是深度学习的基础理论目前还不是太清楚,相关研究也非常少,这也是它经常遭人诟病的主要原因。
二、深入挖掘一些实际应用需求比较高的研究问题
因为大部分研究最终还是要为实际应用服务的。
学术界与工业界关注点的差异
计算机视觉领域越来越多的学术界的专家学者加入了工业界:香港中文大学的贾佳亚教授加入了腾讯优图,前几年 Yann LeCun 加入了 Facebook,还有谷歌的 Geoff Hinton 等等。中科院也成立了自己的银河水滴科技,王亮博士作为该公司技术顾问,从自己的角度谈了谈学界与业界关注点上的区别:
学术界做研究是面向国际学科前沿,更多关注算法层面的研究问题,所以创新性会比较高一些。对于工业界而言,主要是以实际应用为导向,例如基于当前比较有效的一些模型算法,针对具体问题改进以达到实用的目的。因此,相对学术界来说,工业界做的东西可能比较偏实用、更工程化一些,但同时创新性也相对低一些。
大数据与计算机视觉
在计算机视觉发展过程中,很多模型算法都是基于机器学习算法衍生出来的。包括大家所熟悉的深度学习,其前身是深度神经网络,也是机器学习算法的一种。
计算机视觉领域如何应用大数据呢?
“事实上,深度学习本身就是一种大数据分析模型,而且在计算机视觉领域已经得到很好的应用。”
王亮博士补充道:
“深度学习的一个最大的特点就是能够利用大规模数据集来训练出更好的模型,并自适应地学习用于不同任务的数据特征表示。ImageNet 数据库相对于早期的 PASCAL VOC 数据库来说,它的数据集规模是非常大的。深度学习包括 CNN 在该大规模数据库上训练出来的模型能够更好地进行目标识别,这一过程利用到了大数据的规模大信息多的特性,使得模型能够挖掘到更有用的信息。”
目前深度学习和大数据两者的有机结合确实给计算机视觉领域带来了很多红利,但是这样的红利能够持续多久呢?王亮博士认为不好预测,但是可以肯定的是:深度学习和大数据的潜力可能还没有被充分挖掘。
王亮博士以 CNN 为例进行了分析:
“深度学习中的 CNN,最早是几层的 AlexNet,后来到了十几层的 VGGNet,然后到了几十层的 GoogelNet,甚至到最近几百层的 ResNet,每一次这些新模型出现的时候,我们都怀疑深度学习是不是已经到了极限了?我们的模型性能是不是不可能再提升了?但是每一次又确确实实有更深、精度更高的网络被提出来了,并且每一次都不同程度地推动了计算机视觉领域的发展。所以,我们说深度学习和大数据目前应该还是处于上升发展期,其带来的红利可能还会再持续较长一段时间。”
给有志加入人工智能研究的年轻学者的建议
王亮博士的建议有两点
1,加入人工智能领域,首先要加强自身素质的培养。
我平时无论是招生、招聘中,通常最关注的都是三个方面:编程、英语、数学。编程是实现算法的基础,数学是理解模型算法的基础,而英语是用于文献阅读、与人交流、文章写作的基础。编程、数学和英语,这三个方面缺一不可。
2,志存高远,开拓创新
这几年人工智能迅速发展,国内发表的相关的高质量期刊或者会议论文层出不穷,但是真正在国际范围内产生巨大影响的工作还是相对比较少的。不能说大部分工作都是跟风,但是很多情况下我们只是在别人的基础上修修补补,原创性的工作并不多。所以,如果大家愿意加入人工智能领域的话,应当志存高远,争取做出一些原创有影响力的工作。
王亮博士
中国科学院自动化研究所研究员,博导,IEEE 高级会员、国际模式识别协会会士(IAPR Fellow),模式识别国家重点实验室副主任、中国图象图形学学会视觉大数据专业委员会主任、图像视频大数据产业技术创新战略联盟秘书长、中国计算机学会计算机视觉专委会秘书长、中国电子学会青年科学家俱乐部副主席。中科院百人计划入选者(终期优秀),国家杰出青年科学基金获得者,国家青年科技奖获得者。2004 年获中科院自动化所工学博士学位。2004-2010 年分别在英国帝国理工学院、澳大利亚莫纳什大学、墨尔本大学及英国巴斯大学工作。主要研究领域包括模式识别,计算机视觉,大数据分析等。
评论