写点什么

AAAI 2020 论文解读: 商汤科技发布新视频语义分割和光流联合学习算法

  • 2020-02-16
  • 本文字数:2800 字

    阅读完需:约 9 分钟

AAAI 2020论文解读: 商汤科技发布新视频语义分割和光流联合学习算法

视频语义分割的一个主要的挑战是缺少标注数据。在大多数基准数据集中,每个视频序列(20 帧)往往只有一帧是有标注的,这使得大部分监督方法都无法利用剩余的数据。为了利用视频中的时间 - 空间信息,许多现有工作使用预先计算好的光流来提升视频分割的性能,然而视频分割和语义分割仍然被看作是两个独立的任务。近日,商汤科技研究团队发表论文《Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow》,该论文被 AAAI 2020 录用。


在这篇文章中,作者提出了一个新颖的光流和语义分割联合学习方案。语义分割为光流和遮挡估计提供了更丰富的语义信息,而非遮挡的光流保证了语义分割的像素级别的时序一致性。作者提出的语义分割方案不仅可以利用视频中的所有图像帧,而且在测试阶段不增加额外的计算量。

背景

视频语义分割通过利用前后帧的语义信息,往往有着比图像分割更高的准确率,因此在机器人和自动驾驶领域有着丰富的应用。然而目前的视频语义分割主要面临两个挑战:缺少标注数据和实时性的问题。一方面由于标注工作耗时耗力,一个视频片段往往只标注一帧,导致很多方法难以利用全部的数据,或者需要使用额外的数据集做预训练;另一方面由于对前后帧之间进行信息交互往往为模型引入额外的模块,导致视频分割效率低。视频分割大致可以分为两类,第一类通过利用前后帧的时序信息来为视频分割加速,如 Clockwork network (Shelhamer et al. 2016) ,Deep Feature Flow (Zhu et al. 2017) 和 (Li, Shi, and Lin 2018) 等,这类模型对前一帧的特征图或者分割结果进行简单处理即可得到下一帧的分割结果了,从而大大减少视频分割中的冗余和加速,但语义分割的准确率会有所降低;第二类方法如 (Fayyaz et al. 2016) ,Netwarp (Gadde, Jampani, and Gehler 2017),PEARL (Jin et al. 2017) 等通过光流/RNN 等模块将前后帧的特征进行融合或添加约束以学习到更强的表示能力,从而提高语义分割的准确率。本文的方法属于第二类。



图一,和使用特征融合(feature aggregation)的方法往往只利用标注帧附近的少数帧相比,本文通过学习的光流来为视频帧添加时序一致性约束,通过这种约束可以间接把分割标注传导到其他无标注的帧上,从而利用全部的数据。


方法概述

光流作为视频中前后帧之间像素级别的关联,在视频语义分割中一直有着重要的地位。例如 (Li, Shi, and Lin 2018; Zhu et al. 2017; Shelhamer et al. 2016) 通过光流来重新利用前一帧的特征图从而为视频分割加速;(Fayyaz et al. 2016; Jin et al. 2017; Gadde, Jampani, and Gehler 2017; Nilsson and Sminchisescu 2018; Hur and Roth 2016) 通过光流指导的特征融合来获得更好的分割准确率。然而上述方法面临两个问题,一方面其往往使用现成的在其他数据集上训练的光流模型(FlowNet),导致了分割效率的降低;另一方面上述方法往往只利用了标准帧附近的少数帧,没有充分利用整个数据集和发挥光流的作用。


为了解决上述两个问题,作者提出了一个光流和语义分割联合学习的框架,语义分割为光流和遮挡估计提供了更丰富的语义信息,而非遮挡得光流保证了语义分割的像素级别的时序一致性。本文模型通过在视频中无监督学习光流并且使用光流对前后帧语义分割的特征图施加约束来使得两个任务互相增益并且没有显式的特征融合,这种隐式的约束可以帮助利用数据集中的全部数据并学到更鲁棒的分割特征以提高分割准确率,并且不会在测试阶段增加额外的计算量。



图二,本文提出的联合学习框架,输入图片经过共享编码器后分为两个分支,第一个是光流分支,第二个是分割分支。block 代表模型的特征图,灰色的虚线代表时序一致性约束,灰色实线代表遮挡估计模块。


时间一致性约束:


对于一对图片 I_i 和 I_{i+t},设其对应的分割特征图为 S,设学习到的光流为 F,遮挡 Mask 为 O,(S,F,O 均包含三个 block,如图所示),则两帧分割特征图可以通过光流 warp 进行转换:S_i^{warp}= Warp(S_{i+t}, F_{i->i+t})


考虑到遮挡的截断区域无法使用光流进行对齐,因此这些区域不计算损失。两帧的其他区域对应的分割特征图通过光流进行 warp 对齐后的一致性损失为第一帧的分割特征图和第二帧经过 warp 的分割特征图的非遮挡区域的 2 范数。


光流和遮挡估计:


文中所说的遮挡意味着两帧图片中光度的不一致性,它一般由图像中遮挡,截断(汽车离开相机拍摄)和移动目标导致,这里作者使用无监督的方式学习遮挡区域,通过反向光流推测出可能无法对齐的像素位置 O,模型根据此学习得到 O_{est};两帧的分割结果通过光流 warp 不一致的区域设为 O_{seg},O_{seg}应包括遮挡区域和光流估计错误的区域,因此 O_{error} = O_{seg}-O_{est}应为光流估计的重点区域。在计算光流估计的损失函数时,作者不考虑遮挡区域(O_{est})的损失,而加大重点区域(O_{error})的权重,遮挡估计的示意图如图 3 所示。



图 3,遮挡和遮挡估计示意图


语义分割的学习:


在训练时,作者从每个视频小段中随机选择 10 对图片来进行训练,其中五对包含标注帧,而另外五对均不包含标注帧。对于标注帧,直接使用监督的语义分割损失来进行学习;对于不包含标注帧的情况,通过两帧的一致性约束来对模型进行约束和学习。通过这种约束学习,标注信息可以从一帧传播到其他的未标注帧,而即使是两个未标注帧也可以通过一致性来学习。

实验结果

Cityscapes 数据集上的分割结果:



CamVid 数据集上的分割结果:



KITTI 数据集上的光流估计结果:



可视化结果:



图四,Cityscapes 验证集分割结果,从上至下分别为原图, 本文算法分割结果,PSPNet 分割结果和 GT。可以看出本文算法对移动目标(汽车,自行车)和出现频次较少目标(横向卡车)分割效果较好。



图五,KITTI 数据集上光流估计结果,从上至下分别为原图,本文算法估计结果,GeoNet 估计结果和 GT。可以看出本文算法对移动目标的边缘估计更为准确。


论文作者:Mingyu Ding, Zhe Wang, Bolei Zhou, Jianping Shi, Zhiwu Lu, Ping Luo


2020-02-16 12:004389

评论

发布
暂无评论
发现更多内容

工业管理 项目管理经验总结(29)

万里无云万里天

项目管理 工业 工厂运维

进入职场第三课——立足

老李说技术

职场 职场发展 职场妙招

漏洞赏金实战:我是如何轻松获得2500美元奖金的

qife122

漏洞挖掘 逻辑漏洞

低空经济从“蓝图”迈向“实景”,技术与应用协同成为产业焦点

科技经济

看完鸿蒙6心痒痒?记得在鸿蒙有礼把会员年卡抽了再说

最新动态

在AI技术快速实现创意的时代,挖掘数学学习新需求成为关键挑战

qife122

需求分析 数学资源

2025年医学图像处理与识别国际会议(IPOR 2025)

搞科研的小刘

图像处理

久其接口新特性——解决报表连续性、数据项连续性

inBuilder低代码平台

GS Cloud 久其接口 结构化匹配 多版本报表 参数迁移

20年装备制造业MES实施经验分享

万界星空科技

制造业 mes 万界星空科技mes 软件实施 MES实施

配电 低压电工经验总结(18)

万里无云万里天

工业 工厂运维

第七届智能控制、测量与信号处理国际学术会议 (ICMSP 2025)

搞科研的小刘

智能控制

双十一隐藏福利:鸿蒙有礼让我实现追剧自由

最新动态

得物TiDB升级实践

得物技术

数据库 TiDB 数据库性能优化

LED广告牌安装服务,让生意“亮”起来!

Dylan

广告 LED LED display LED显示屏 LED屏幕

[大厂实践] 少即是多:Zendesk 长时间作业执行优化

俞凡

架构

使用 Java、Spring Boot 和 Spring AI 开发符合 A2A 标准的 AI 智能体

码界行者

AI Agent Spring AI

「腾讯云NoSQL」技术之Redis篇:精准围剿rehash时延毛刺实践方案揭秘

腾讯云数据库

数据库 nosql redis 腾讯云数据库 腾讯云NoSQL

第六届机械工程、智能制造与自动化技术国际学术会议 (MEMAT 2025)

搞科研的小刘

工程机械

第十届能源系统、电气与电力国际学术会议 (ESEP 2025)

搞科研的小刘

能源

大数据-149 Apache Druid 实时 OLAP 架构与选型要点

武子康

Java 大数据 分布式 Druid Apache Druid

Agentic AI基础设施实践经验系列(六):Agent质量评估

亚马逊云科技 (Amazon Web Services)

人工智能

Paytium 3.0.13 WordPress插件存储型XSS漏洞分析

qife122

网络安全 WordPress插件

时序数据库 IoTDB 集成 MyBatisPlus,告别复杂编码,简化时序数据 ORM 开发

Apache IoTDB

三小时会议,五分钟纪要:一个技术Leader的会议记录救赎之路

HuiZhuDev

效率工具 团队协作 技术管理 会议管理 AI指令

双十一也别忘了薅羊毛,华为音乐全曲库超高清音频随便听

最新动态

下一代金融安全关键技术:融合开源数据与网络数据的智能处理能力

IAN李车

金融科技 信息安全 数据合规 金融安全 金融合规

微服务已死?别再盲目跟风微服务!这3种情况下单体架构更适合你。

六边形架构

微服务 系统架构 架构设计 架构师 单体架构

软件未来预测的准确性与代码简洁之道

qife122

软件设计 未来预测

AAAI 2020论文解读: 商汤科技发布新视频语义分割和光流联合学习算法_语言 & 开发_Mingyu Ding等_InfoQ精选文章