点击围观!腾讯 TAPD 助力金融行业研发提效、敏捷转型最佳实践! 了解详情
写点什么

李飞飞团队新作:一种补全视觉信息库的半监督方法

  • 2019-05-11
  • 本文字数:3951 字

    阅读完需:约 13 分钟

李飞飞团队新作:一种补全视觉信息库的半监督方法

视觉信息库,例如 Visual Genome 数据库,在计算机视觉方面驱动了着大量的应用发展,包括视觉问答和图像标注等。但同时,视觉知识库也具有稀疏、欠完备等缺点。使用人工标注是非常昂贵的,而基于纹理知识的补全方法则无法与视觉数据兼容。斯坦福大学李飞飞团队提出了一种半监督方法,使用少量标注样本预测无标注样本概率学标签的方法。基于对视觉关系的分析,该方法启发式地将两种图像无关特征进行使用基于图的生成模型进行累计。在使用了少量标注样本的关系样本情况下,生成数据可以用于训练现有的最好的场景图模型。作者认为本文的方法是一种具有实际意义的使用有限的标签进行训练的方法(the de-facto approach)。实验结果表明,该方法在解决场景图预测数据标签缺失方面具有优越的性能。本文是 AI 前线第 78 篇论文导读。


1 什么是场景图预测?

为了使图像表征形式化,Visual Genome 定义了场景图(Scene Graph)。场景图是一种结构化的形式,它与广泛用于知识库的表示方法具有相似的形式。场景图将多个目标(例如:狗,飞盘)编码为节点,这些节点之间通过成对的关系作为边相连接(例如:在玩)。这种形式化的表达促进了图像标注、图像检索、视觉问答、关系模型和图像生成等方面的发展。然而,对于没有充分标注的实例,目前为止所有的场景图模型都忽略了超过 98%的关系类别(图 1),这些模型主要侧重于解决具有上千个标注信息的实例的关系。



图 1:视觉关系的统计表示,目前大多数模型主要集中于解决 Visual Genome 数据集中的前五十种关系,这些关系包含上千个已标记的实例。这导致超 98%种仅包含少量标注实例的视觉关系被忽略了。


为了对人工标注进行补充,通过使用半监督学习或弱监督(远监督)学习方法,许多基于文本知识补全的算法应运而生。但这类方法对于视觉关系不具有良好的泛化能力,这使得针对视觉知识的特殊方法成为急需解决的问题。


本文提出了一种自动化生成缺失关系类标的方法,该方法使用少量的标注数据集自动化地生成类标用来训练下游的场景图模型(图 2)



图 2:本文提出的半监督方法可以生成无标签数据的概率标签然后用于训练下游的场景图模型


本文的作者首先从如何定义图像无关特征(2.2 部分)对图像中的实例关系展开探索。例如,“吃”这一行为通常由一个正在吃东西的目标和另一个比前者小的被吃的物体组成。再比如说这个动作,该实例关系中通常包含手机、笔记本和窗口(图 3)。在视觉关系中,这些规则不需要原始的像素值并且可由图像无关特征推断而来,如物体类别、空间关系。尽管这些规则简单明确,但它们对于寻找丢失的视觉关系中的潜力尚未被挖掘




图 3:视觉关系,如“飞”、“吃”和“坐”可以有效地被形象化表示为他们的类别(图中 s 和 o 分别表示主体和客体)或空间特征。改图表示这些空间和类别特征对某一视觉关系的重要性。


从上图中可以看出,图像无关特征可以在一些复杂视觉关系中捕获变化,这些视觉关系由于实例间的相互差异很难直接被刻画为某种表示。因此,为了量化我们的图像无关特征的重要性,本文的作者定义了“子类型”用来测量空间和类别的变化。

2 视觉关系分析

2.1 相关术语

2.2 图像无关特征


为了说明空间和类别特征可以很好的描述不同的视觉关系,作者对于每一种视觉关系都训练了一个决策树模型。在图 3 中画出了 4 中视觉关系中最重要的几个空间和类别特征,例如,“飞”跟主体还有客体的 y-轴左边有很大的关系,“看”主要取决于物体类别(例如,手机、笔记本、窗户)而不依赖于任何空间方向。

2.3 视觉关系的变化

为了系统的研究视觉关系的变化,作者将每个视觉关系定义为具有一定数量子类型的组合。例如,在图 4 中,“骑”包含了一个类别子类型<人-骑-自行车>和另一个类别子类型<狗-骑-冲浪板>。类似的,一个人可能会以多种不同的空间方式“拿”一个物体(例如,在头上,在身侧)。为了找到所有的空间子类,作者使用均值漂移聚类对 Visual Genome 中的所有视觉关系提取空间特征。为了找到类别子类,作者对一个视觉关系中的所有物体类别进行了数量统计。



图 4:同一视觉关系的不同子类,上半部分均为“骑”,下半部分均为“拿”。

3 方法

对于无标注的数据集 Du,作者使用了三步来获得其概率标签:(1)作者提取了已标注数据集 Dp 的图像不变特征,同时结合目标检测算法提取 Du 中候选物体的图像不变特征;(2)对图像不变特征使用启发式生成算法;(3)使用基于因子图的生成模型对概率标签进行聚合并赋给 Du 中的未标注物体对。具体算法在论文原文的 Algorithm1 中有详细叙述,整个系统的端到端框架如图 5 所示。



图 5:本文提出算法的整体框架图,图中以“拿”这一关系作为示例进行展示。

3.1 特征提取

提取图像无关特征需要用到现有的目标检测算法,这里作者使用了 Mask-RCNN 来生成无标签数据物体候选框,然后使用使用第三部分所述的图像无关特征的定义计算无标注数据的图像无关特征。对于已标注的数据,则直接利用其标注的候选框计算图像无关特征。

3.2 启发式生成

作者使用已标注的视觉关系中的空间和类别特征训练了一个决策树。同时,作者对这些启发式算法的复杂度进行了约束以防止模型过拟合。这里作者使用了浅层的决策树网络,对于每一个特征集使用不同的深度约束,这样就产生了 J 个不同的决策树。随后作者使用了这些启发式算法预测无标签数据集的标签,得到所有无标签关系的预测矩阵





图 6:视觉关系的一个子集,空间和类别子类决定了不同程度的复杂度。


为了更进一步的防止过拟合,作者通过设置一个置信度阈值对Λ进行调整。最终的启发式算法如图 5 中的示例所示,当一个主体在客体上方时候,则会对谓语部分的这一动作的类标赋予正值。

3.3 生成模型

3.4 训练场景图模型

最终,这些概率类标被用于训练任何一种场景图模型。场景图模型通常使用交叉熵损失进行训练,作者对该函数进行了调整,这是为了将生成模型的标注错误也考虑进去。最终,作者使用了一种噪声感知经验误差函数来优化场景图模型:



其中θ是需要学习的参数,Π表示使用生成模型学到的分布,Y 是真实类标,V 是使用任意场景图预测模型提取的视觉相关特征。

4 实验

作者首先在 VRD 数据集上对生成模型的标注能力进行了测试,以验证生成模型是否具有寻找丢失的视觉关系的能力。然后,作者使用生成的类标训练了目前最好的场景图模型。作者将生成的标签与 Visual Genome 数据集的类标进行了比较。最后,作者将本文的方法与迁移学习方法进行了对比。VRD 和 Visual Genome 模型都是视觉关系预测和场景图识别方向的两个标准数据集。由于 Visual Genome 数据库规模太大(108K 张图像),每个场景图的标签都不完整,因此作者仅在 VRD 数据集上对半监督算法的进行了验证。


作者为了验证他们提出的半监督方法能够很好地标注丢失的视觉关系,作者在 VRD 数据集的测试集上计算了精确度和召回率。实验结果如下表所示:



为了展示概率标签的效果,作调整了现有的场景图模型并使用了三种标准评价模式:1)场景图检测(SGDET),该模式输入图像,预测出其边界框、物体类别和谓语类标。2)场景图分类(SGCLS),该模式输入真实边界框,预测出图像的物体类别和谓语类标。3)谓语分类(PREDCLS),该模式输入边界框的真实集合和物体类别,预测图像的谓语类标。关于这三种任务的详细介绍作者推荐了文章[1]供读者们参考。本文的方法在这三个任务上的实验结果如下表所示:



该表中,作者采用 ORACLE 作为模型性能的上边界,因为这个方法的实验结果是在整个 VIsual Genome 上训练得到的,作者希望提出的方法能够尽量与 ORACLE 达到相同的效果。表格的上半部分是一些基线方法,其中 DECISION TREE 是一种提取图像无关特征的单决策树方法,LABEL PROPAGATION 是一种应用广泛的半监督方法,TRANFER LEARNING 则使用了一种通用的迁移学习方法进行训练。


表格的下半部分是消融实验结果,即对作者提出方法的每个部分进行有效性验证。(CATEG.)表示仅使用类别特征,(SPAT.)表示仅使用空间特征,(DEEP)表示仅使用 ResNet50 提取的深度特征,(CATEG.+SPAT.)表示使用级联的类别和空间特征,(CATEG.+SPAT.+DEEP)表示三者结合。(MAJORITY VOTE)则是使用类别和空间特征,同时使用简单的多数投票方法而不是使用生成模型来聚合启发式函数的输出的方法。可以看出本文提出的方法在多个模式下都体现出卓越的效果。


作者绘制了本文提出方法的类标赋值情况,与图 3 中相关的图像无关特征进行了比较,类标可视化结果如下图:



在(a)中,本文的模型预测出了“飞”这个位于,因为它学习到了“飞”这个动作表示两个物体在 y 轴上的存在巨大差异。在(c)中,本文提出的模型则做出了错误的预测,将“挂”理解为了“坐”,这是因为模型过度的依赖于类别特征中“椅子”和“坐”密不可分的关系。

5 结论

本文的作者首次提出了一种补全视觉信息库的半监督方法,该方法利用图像无关特征尽可能地用少于 10 个标注实例来刻画每一种视觉关系。然后通过对这些特征进行启发式学习训练,最后使用生成模型为无标注图像分配概率标签。作者在 VRD 数据集上进行了测试,实验结果表明本文提出的模型性能在标注方面比标准的半监督方法(例如标签传播)高出了 11.84 点,F1 分数达到了 57.66。


为了进一步验证生成类标的作用,作者对目前最好的场景图模型进行微调从而使其可以使用生成的概率标签进行训练。使用概率标签训练后的模型在 Visual Genome 数据库上达到了 46.53recall@100(召回率 100 时的识别准确率),与仅使用有标注实例训练后的模型相比提升了 40.97 个点。同时,作者还与其他迁移学习方法进行了对比。在召回率为 100 时,本文提出的方法比其他迁移学习方法高出 5.16 个百分点,这是因为对于未标注的子类本文提出的方法具有更好的泛化能力,尤其是具有高复杂度的视觉关系。


英文论文原文:https://arxiv.org/abs/1904.11622


2019-05-11 14:047297

评论

发布
暂无评论
发现更多内容

全球最大规模对话生成模型问世!百度发布PLATO-XL,让机器像人一样思考和对话

科技热闻

从技术宝库到云上机遇:华为云开天aPaaS的“修路记”

脑极体

OpenKruise v0.10.0 新特性 WorkloadSpread 解读

阿里巴巴云原生

阿里云 容器 云原生 OpenKruise Workload

告别Kafka Stream,让轻量级流处理更加简单

阿里巴巴云原生

kafka 阿里云 云原生 ETL

架构实战课程 模块四作业

Frank

网络协议之:WebSocket的消息格式

程序那些事

网络协议 HTTP websocket 程序那些事

第 3 章 -《Linux 一学就会》- 文件的基本管理和XFS 文件系统备份恢复

学神来啦

Linux 运维 文件存储 linux云计算

网络攻防学习笔记 Day145

穿过生命散发芬芳

VXLAN 9月日更

模块八作业 一 消息队列存储模型设计

babos

#架构实战营

Java 中的 NaN

HoneyMoose

如何用 Java 判断一个给定的数是不是素数

HoneyMoose

CANN 5.0硬核技术抢先看

华为云开发者联盟

架构 AI 计算 CANN 异构计算架构

Linux创建/删除用户组

在即

9月日更

JDK 内置命令行工具学习笔记二

风翱

JVM 9月日更

VEGA:诺亚AutoML高性能开源算法集简介

华为云开发者联盟

机器学习 AutoML 网络结构 VEGA AutoML算法

EMQ 映云科技加入信通院可信开源社区共同体,加速共建开源生态

EMQ映云科技

云计算 开源 物联网 开源社区 信通院

爱奇艺 TensorFlow Serving 内存泄漏优化实践

爱奇艺技术产品团队

内存

干货打包!最新实时同步5大应用场景,4种实现方案分享(有彩蛋)

tapdata

linux之service命令

入门小站

Linux

公众服务常用电话号码大全

入门小站

工具

JavaScript进阶(八)generator(生成器)实现

Augus

JavaScript 9月日更

技术分析| 音视频服务集群如何实现全球多中心化调度

anyRTC开发者

区块链 音视频 WebRTC 中心化调度

把低代码开发平台推给开百货店的朋友,对他有帮助吗?

低代码小观

低代码 企业 企业管理 管理者 管理工具

架构师知识笔记3

felix徐

深入 iOS 静态链接器(一)— ld64

字节跳动终端技术

ios 移动终端 火山引擎 静态链接器

数据仓库的基本要求

奔向架构师

数据仓库 9月日更

照妖镜纳米“相机”:让反应历程无处遁形

脑极体

23. 大部分工作将发生转变而非消失

数据与智能

人工智能

精灵图在现代前端中到底有用没,css中显示和隐藏竟有两种不同方式

你好bk

CSS JavaScript html css3 大前端

用明道云搭建一个住宅式物业管理系统

明道云

WeTest云手机升级,支持iOS 15全新系统

WeTest

李飞飞团队新作:一种补全视觉信息库的半监督方法_AI_郝毅_InfoQ精选文章