6 月 21 日，由北京智源人工智能研究院主办的 2020 北京智源大会正式开幕（直播入口： https://2020.baai.ac.cn ），大会为期四天，各主题论坛和分论坛将围绕如何构建多学科开放协同的创新体系、如何推进人工智能与经济社会发展深度融合、如何建立人工智能安全可控的治理体系、如何与各国携手开展重大共性挑战的研究与合作等一系列当下最受关注的问题进行交流和探讨。智源大会的第二天，中国科学自动化研究所王亮分享了主题为“面向复杂任务的视觉计算”的演讲，他就目前视觉任务中数据内容冗余、模态之间的抑制性、模型泛化性差等具有挑战性的问题进行了分享，以下内容根据王亮的演讲整理而来，未经本人确认。

研究背景及挑战性问题

复杂的视觉学习任务是指多模态的学习任务，基本的检测问题在计算机视觉中研究得比较广泛，但是复杂的视觉任务研究得比较少。复杂的视觉任务不只是牵扯到多模态的任务，比如说视觉、语音、文本等，还有很多实际的应用。对于这样的例子，研究起来比较困难，不仅要处理在视觉任务中的高级语意问题，同时还要回答其他数据模态，比如文本、音频等跨模态相互关联的问题。针对这样的问题，王亮列出了所面临的四个挑战性问题。

第一、数据内容的冗余。正如左上角的例子所显示，如何衡量一个图像或对应的语意之间的相关联性到底如何，图像中“蔬菜”这个单词和图像中“蔬菜”区域是有语意关联性的，但是其他的单词和区域之间没有直接的关联作用。所以这样的信息就是背景干扰信息，去除冗余信息是非常困难的。

第二、跨模型的小样本问题。王亮举了一个关于小样本的问题，对于很多数据库来讲，样本的不均衡是个很大的问题，比如说我们要标注成对的数据，这样是非常耗时、耗力的。

第三、模态之间的抑制性。对于视觉语言来讲，也就是复杂的视觉语意鸿沟的问题。这里，他列举了几个视觉和文本从区域到整体上不同的例子，各个层面都存在着复杂的对应关系，如何解决这种多模态的关系也是一个比较大的挑战。

第四、模型的泛化性较差。一个模型可以适用一个任务，但是换了另一个任务可能就不适用了，哪怕是同一种模型，就目前相对高精度的研究也是要依靠复杂的模型堆叠处理的，在现实场景下，很难进行高效率部署。

从以上问题可以看出，在理解数据时，牵扯到了一些认知功能，比如信息的过滤、存储、再使用或信息的推理等，这些功能不能仅仅通过当前的视觉感知计算来实现。

视觉感知计算

视觉感知计算是借助生物学的神经网络结构，来感知视觉信息中的形状、色彩和运动一些相关的信息。这样的感知层很难处理视觉任务中的信息冗余以及复杂推理，即使目前最好的模型，在2019年时，在受限的数据库上的测试结果准确率在70%左右，远远低于人的推理和感知能力。

在计算机视觉领域，很多人都在探索注意力机制或记忆力机制来解决一定的认知功能，从而可以实现信息的过滤、存储和推理。那么借鉴到复杂的人工智能视觉领域，就可以实现小样本的学习、知识传输、关系推理以及做决定等。

注意力机制建模

下图左侧展示了soft attention机制如何来计算的模式，在实际应用中，soft attention要比hard attention效果更好一些，因为hard attention经常要丢失一些信息。

记忆力建模

左侧图片的模式是端到端的记忆力模式，代表短时的记忆力建模，它只具备读取的功能，不具备写入的功能。而且记忆力特征的初始化为已有特征的样本，一般有一个support set来代表，右侧是图灵神经记忆，它代表对长时间记忆的建模，具有读取和写入的功能，记忆特征的初始化一般从随机特征开始。

推理建模

推理建模最近应用比较多，主要是推理不同的视觉目标、属性以及行为之间的关联关系。下列左侧图是个机器人导航，从一个出发点推理决策到目标点的过程。右侧图是一个视觉关系的推理过程。推理不是一次完成的，需要不断地循环、迭代才能得到最终的结果。

近期研究

随后，王亮又分享了他们团队针对上述四种挑战性问题进行的一系列研究。主要从三个方面进行了介绍：注意力机制建模、记忆力建模和推理建模。

图像与句子的匹配其实是描述两者之间的相似度。它可应用的场景比较多，比如图像和句子之间的跨模态检索问题、图像描述问题、图像的问答问题等。传统做法是提取句子或图像全局的特征，然后使用结构化的损失函数或者是正则关系的目标函数来进行关联。但是这里面会有一些冗余内容，如果使用图像全局特征，可能不太适合。王亮表示，他和团队从另外一个视角，通过语意感念的提取，以及语意顺序的组织来解决这样的问题。

对于上述问题，王亮和团队提出了一个模型，对于语意概念，采用多区域、多标签的卷积神经网络来实现。在语音顺序的学习过程中，研究团队使用了上下文调制的策略，加上句子生成
作为指导。具体点来说，对于语意概念的预测，采用的是多边形、多区域、多标签来实现的。

对于语意顺序的学习，采用的是上下文特征作为参考，全局的特征标注了概念的空间关系，我们可以选择性地平衡语意概念，平衡全局上下文之间的重要性。同时，利用句子的生成作为指导，使用真实的语音顺序来监督图像表达的学习过程。实验结果如下：

可视化案例：

视频描述是指给定一个简短的视频，用一句话来描述视频中所发生的内容。视频描述有很多潜在的应用，最典型的案例之一就是导盲，摄像头记录下来道路的环境，然后解说道路上有没有障碍物，把路况转换成语言告诉给盲人。这里面临的挑战是在视觉和语言之间如何架起一个映射关系，另外一个问题是如何建模一个视觉与文本之间的长时间依赖性建模。

LSTM用于空间序列建模是比较好的，但是它的缺点是不能很好地建模长时间依赖关系，所以王亮和团队在工作中加入了注意力机制来解决这方面的问题。

实验结果：

结语

注意力机制建模能够选择性地处理一些视觉信息，这样可以减少冗余信息的影响。记忆力机制能够存储一些没有看到的历史信息或先验知识，重新利用这些信息来表达没有看到的或小样本的信息。推理建模能捕捉到属性、目标等之间潜在的联系，能够支持我们做一些更高层次的探究。

创作场景

中国科学自动化研究所王亮：面向复杂任务的视觉认知计算