【AICon】 如何构建高效的 RAG 系统?RAG 技术在实际应用中遇到的挑战及应对策略?>>> 了解详情
写点什么

中国科学自动化研究所王亮:面向复杂任务的视觉认知计算

  • 2020-06-22
  • 本文字数:2403 字

    阅读完需:约 8 分钟

中国科学自动化研究所王亮:面向复杂任务的视觉认知计算

6 月 21 日,由北京智源人工智能研究院主办的 2020 北京智源大会正式开幕(直播入口: https://2020.baai.ac.cn ),大会为期四天,各主题论坛和分论坛将围绕如何构建多学科开放协同的创新体系、如何推进人工智能与经济社会发展深度融合、如何建立人工智能安全可控的治理体系、如何与各国携手开展重大共性挑战的研究与合作等一系列当下最受关注的问题进行交流和探讨。智源大会的第二天,中国科学自动化研究所王亮分享了主题为“面向复杂任务的视觉计算”的演讲,他就目前视觉任务中数据内容冗余、模态之间的抑制性、模型泛化性差等具有挑战性的问题进行了分享,以下内容根据王亮的演讲整理而来,未经本人确认。

研究背景及挑战性问题

复杂的视觉学习任务是指多模态的学习任务,基本的检测问题在计算机视觉中研究得比较广泛,但是复杂的视觉任务研究得比较少。复杂的视觉任务不只是牵扯到多模态的任务,比如说视觉、语音、文本等,还有很多实际的应用。对于这样的例子,研究起来比较困难,不仅要处理在视觉任务中的高级语意问题,同时还要回答其他数据模态,比如文本、音频等跨模态相互关联的问题。针对这样的问题,王亮列出了所面临的四个挑战性问题。



第一、数据内容的冗余。正如左上角的例子所显示,如何衡量一个图像或对应的语意之间的相关联性到底如何,图像中“蔬菜”这个单词和图像中“蔬菜”区域是有语意关联性的,但是其他的单词和区域之间没有直接的关联作用。所以这样的信息就是背景干扰信息,去除冗余信息是非常困难的。


第二、跨模型的小样本问题。王亮举了一个关于小样本的问题,对于很多数据库来讲,样本的不均衡是个很大的问题,比如说我们要标注成对的数据,这样是非常耗时、耗力的。


第三、模态之间的抑制性。对于视觉语言来讲,也就是复杂的视觉语意鸿沟的问题。这里,他列举了几个视觉和文本从区域到整体上不同的例子,各个层面都存在着复杂的对应关系,如何解决这种多模态的关系也是一个比较大的挑战。


第四、模型的泛化性较差。一个模型可以适用一个任务,但是换了另一个任务可能就不适用了,哪怕是同一种模型,就目前相对高精度的研究也是要依靠复杂的模型堆叠处理的,在现实场景下,很难进行高效率部署。



从以上问题可以看出,在理解数据时,牵扯到了一些认知功能,比如信息的过滤、存储、再使用或信息的推理等,这些功能不能仅仅通过当前的视觉感知计算来实现。

视觉感知计算

视觉感知计算是借助生物学的神经网络结构,来感知视觉信息中的形状、色彩和运动一些相关的信息。这样的感知层很难处理视觉任务中的信息冗余以及复杂推理,即使目前最好的模型,在 2019 年时,在受限的数据库上的测试结果准确率在 70%左右,远远低于人的推理和感知能力。


在计算机视觉领域,很多人都在探索注意力机制或记忆力机制来解决一定的认知功能,从而可以实现信息的过滤、存储和推理。那么借鉴到复杂的人工智能视觉领域,就可以实现小样本的学习、知识传输、关系推理以及做决定等。

注意力机制建模

下图左侧展示了 soft attention 机制如何来计算的模式,在实际应用中,soft attention 要比 hard attention 效果更好一些,因为 hard attention 经常要丢失一些信息。


记忆力建模

左侧图片的模式是端到端的记忆力模式,代表短时的记忆力建模,它只具备读取的功能,不具备写入的功能。而且记忆力特征的初始化为已有特征的样本,一般有一个 support set 来代表,右侧是图灵神经记忆,它代表对长时间记忆的建模,具有读取和写入的功能,记忆特征的初始化一般从随机特征开始。


推理建模

推理建模最近应用比较多,主要是推理不同的视觉目标、属性以及行为之间的关联关系。下列左侧图是个机器人导航,从一个出发点推理决策到目标点的过程。右侧图是一个视觉关系的推理过程。推理不是一次完成的,需要不断地循环、迭代才能得到最终的结果。

近期研究

随后,王亮又分享了他们团队针对上述四种挑战性问题进行的一系列研究。主要从三个方面进行了介绍:注意力机制建模、记忆力建模和推理建模。



图像与句子的匹配其实是描述两者之间的相似度。它可应用的场景比较多,比如图像和句子之间的跨模态检索问题、图像描述问题、图像的问答问题等。传统做法是提取句子或图像全局的特征,然后使用结构化的损失函数或者是正则关系的目标函数来进行关联。但是这里面会有一些冗余内容,如果使用图像全局特征,可能不太适合。王亮表示,他和团队从另外一个视角,通过语意感念的提取,以及语意顺序的组织来解决这样的问题。




对于上述问题,王亮和团队提出了一个模型,对于语意概念,采用多区域、多标签的卷积神经网络来实现。在语音顺序的学习过程中,研究团队使用了上下文调制的策略,加上句子生成


作为指导。具体点来说,对于语意概念的预测,采用的是多边形、多区域、多标签来实现的。




对于语意顺序的学习,采用的是上下文特征作为参考,全局的特征标注了概念的空间关系,我们可以选择性地平衡语意概念,平衡全局上下文之间的重要性。同时,利用句子的生成作为指导,使用真实的语音顺序来监督图像表达的学习过程。实验结果如下:



可视化案例:



视频描述是指给定一个简短的视频,用一句话来描述视频中所发生的内容。视频描述有很多潜在的应用,最典型的案例之一就是导盲,摄像头记录下来道路的环境,然后解说道路上有没有障碍物,把路况转换成语言告诉给盲人。这里面临的挑战是在视觉和语言之间如何架起一个映射关系,另外一个问题是如何建模一个视觉与文本之间的长时间依赖性建模。



LSTM 用于空间序列建模是比较好的,但是它的缺点是不能很好地建模长时间依赖关系,所以王亮和团队在工作中加入了注意力机制来解决这方面的问题。






实验结果:


结语

注意力机制建模能够选择性地处理一些视觉信息,这样可以减少冗余信息的影响。记忆力机制能够存储一些没有看到的历史信息或先验知识,重新利用这些信息来表达没有看到的或小样本的信息。推理建模能捕捉到属性、目标等之间潜在的联系,能够支持我们做一些更高层次的探究。


2020-06-22 18:021670

评论

发布
暂无评论
发现更多内容

GOPS现场 | 芯片行业需要怎样的版本管理工具——对话龙智大规模安全研发技术专家

龙智—DevSecOps解决方案

版本控制 版本管理工具 版本管理 版本控制工具

图像匹配几种常见算法与实践

霍格沃兹测试开发学社

利用 zabbix 监控服务端口

霍格沃兹测试开发学社

狂刷《Java权威面试指南(阿里版)》,冲击“金九银十”有望了

程序知音

Java 阿里 后端技术 Java面试题 Java面试八股文

600+ 道 Java面试题及答案整理(建议收藏)

钟奕礼

Java 面试 java; Java 面试题

栓Q了,大厂被强制毕业,空窗一个月死背八股文,还好拿到了Offer

Geek_0c76c3

Java 数据库 开源 架构 开发

GOPS现场 | 大规模团队如何实现Jenkins的集中管理——对话龙智技术顾问

龙智—DevSecOps解决方案

jenkins 管理Jenkins

通过Inotify-tools 监听文件夹并同步文件至FTP服务器

皮特王

​小长假要到了,来偶遇吗?

腾讯云数据库

数据库 腾讯云 tdsql 腾讯云数据库

50道Java集合高频面试题,看完面试成功率99%

钟奕礼

Java 面试 java;

Mongodb的分页优化及索引使用

霍格沃兹测试开发学社

前端代码优化小技巧

霍格沃兹测试开发学社

技术分享 | web自动化测试-文件上传与弹框处理

霍格沃兹测试开发学社

8年经验面试官详解 Java 面试秘诀

钟奕礼

Java 面试 java;

重铸资源合集之荣光,吾辈义不容辞!!

掘金安东尼

前端 9月月更

JDK RMI探索与使用--序列化

霍格沃兹测试开发学社

BUG 修复预估模型

霍格沃兹测试开发学社

Java程序员不得不会的124道面试题(含答案)

钟奕礼

Java 面试 java;

ITSM | Atlassian ITSM终极指南,重构IT、运营和支持的工作方式

龙智—DevSecOps解决方案

ITSM ITSM解决方案

天了噜,原来有效的复盘要这样做,微妙!

博文视点Broadview

【Java面试宝典】带你拿offer

钟奕礼

Java 面试 java;

行业方案|“医疗”行业智能运维解决方案介绍

云智慧AIOps社区

监控 智能运维 智能优化算法 自动化运维 IT解决方案

Baklib知识分享|知识库对企业来说有哪些意义?

Baklib

图像匹配几种常见算法与实践

霍格沃兹测试开发学社

APISIX的安装和简单使用

飞翔123

GitHub无抗手!MySQL DBA攻坚指南一出,阿里数据库专家都解脱了

Geek_0c76c3

Java 数据库 开源 程序员 架构

彻底搞懂nodejs事件循环

coder2028

node.js

知识管理在企业业务中如何体现其价值

Baklib

Baklib每日分享|在线产品手册的制作技巧

Baklib

Jenkins实践——创建Pipeline的两种方式

霍格沃兹测试开发学社

Android R给自家UA工具挖坑

霍格沃兹测试开发学社

中国科学自动化研究所王亮:面向复杂任务的视觉认知计算_AI&大模型_李冬梅_InfoQ精选文章