写点什么

基于三维卷积神经网络的全参考视频质量评估算法(二)

  • 2020-01-17
  • 本文字数:2130 字

    阅读完需:约 7 分钟

基于三维卷积神经网络的全参考视频质量评估算法(二)

传统 VQA 算法不能有效的使用视频的运动信息

客观视频质量评估算法只需要计算视频的质量分数。从工业界的角度来看,经典的客观算法有 PSNR,SSIM [4],MS-SSIM [5],这些算法基于经典的信号保真度来判断失真视频与无损视频源的差异,再根据差异大小拟合出视频感知质量。近期的算法有 VQM [6],从多个维度提取时空联合特征去逼近主观质量。目前的主流算法有 VMAF [7],使用机器学习方法对多个图像质量客观算法进行融合。借助于融合的思想,VMAF 能够灵活的加入新的客观算法。另一方面,通过使用新的数据集来重新训练,VMAF 也可以方便的迁移到细分维度的视频质量评估任务。


图像质量评估主要是衡量画面内失真在画面掩盖效应影响下的可感知程度。而视频质量评估不仅仅取决于画面内的失真,也包含时域内的失真和时域掩盖效应。这里掩盖效应可简单理解为背景的复杂程度。如果背景较复杂,我们称之为较强的掩盖效应,反之亦然。举个例子,图一中滑板处于快速运动的状态,掩盖效应较强,所以滑板区域的失真更难察觉。而背景中蓝天部门是大片的光滑区域,掩盖效应较弱,细微的压缩失真也能容易察觉到。因此,在开发一个客观视频质量评估算法中,我们必须把视频固有的运动信息考虑进来。


在学术界,有很多相应的策略被提出。最常用的做法是提取两种特征,一种特征去描述画面质量,另一种特征去描述视频运动的大小。比较主流的运动特征包含:TI (Temporal Information),运动向量(Motion Vector),光流(Optical Flow) 等。这种做法最大的缺陷是完全剥离了画面信息和运动信息,视频不再被当作三维数据来处理,而是二维数据加一维数据来处理。



图 2 三维空间内视频切片示意图


为了解决上述问题,另外一种比较直观的方法是对视频进行三维切片[8]。如图 2 所示,我们使用(x, y, t)来标记空域和时域轴。这里切片如果与时间轴垂直,即(x, y)方向,那么切出来的就是传统意义上的视频帧;如果与时间轴平行,即(x, t) 或(y, t)方向,我们就得到了时空联合的二维切片。在某种程度上,后两个切片包含了运动信息。对以上三种切片使用图像质量评估算法,再把切片分数融合起来,就能取得不错的质量提升。尽管如此,三维切片还是没有最大程度的使用运动信息。


有不少图片质量评估算法是基于经典的 DCT 或小波变换,再从变换系数中提取特征向量。对视频而言,一种比较直观的拓展就是使用三维变换,如三维 DCT 变换,三维小波变换等。经过三维变换后,我们从变换系数中进一步提取特征来而做质量评估。这种方法保留了视频的时空联合信息,但是三维变换会引入复杂度过高的问题。

使用三维卷积神经网络来学习视频的时空联合特征(C3D, Convolutional 3D Neural Network)

近年来深度学习在多个计算机视觉图片任务中取得了瞩目的成就。同时也有学者把二维神经网络扩展到三维神经网络来更好的处理视频任务[9]。我们尝试使用三维卷积神经网络来学习时空特征并把它用到视频质量任务中。我们先给出基本的二维和三维卷积模块,再进一步介绍所提出的网络结构。


1、图 3a 给出了二维卷积核在二维输入上的卷积操作。为了避免歧义,我们假设是对二维图像进行卷积操作。其中输入图像大小为 HxW,卷积核大小为 kxk,图像时域深度和卷积核时域深度均为 1。经过卷积运算输出仍为二维。输入输出均不包含任何运动信息。


2、图 3b 给出了二维卷积核在三维输入上的卷积操作。我们可以假设输入为一个画面大小为 HxW,包含 L 帧的视频。这里卷积核的深度不再是 1,而是跟视频帧数相同。经过卷积操作,输出仍为二维,且与图 3a 的输出大小相同。这种卷积操作有利用到视频前后帧的运动信息,但是只用一步卷积就把所有运动信息给吃掉了。


3、图 3c 给出了三维卷积核在三维输入上的卷积操作。与图 3b 相比,这里卷积核的深度为 d,且 d 小于 L。经过三维卷积操作,输出仍为三维。当 d=1 时,等价为图 3a 的卷积操作对视频帧进行逐帧处理,但是并没有利用到前后帧的运动信息。当 d=L 时,它的效果等同于图 3b。所以当 d 小于 L 时,三维卷积能更可控的利用运动信息。如果我们想让运动信息消失的快一些,就调大三维卷积的深度 d。相反,使用小一些的 d 能更缓慢的提取运动信息。



图 3 二维与三维卷积操作示意图


在此基础上,我们设计了自己的视频质量评估算法 C3DVQA。其核心思想是使用三维卷积来学习时空联合特征,进而更好的去刻画视频质量。


图 4 给出了我们所提出的网络结构图,其输入为损伤视频和残差视频。网络包含两层二维卷积来逐帧提取空域特征。经级联后,空域特征仍保留前后帧的时许关系。网络接着使用四层三维卷积层来学习时空联合特征。在这里,三维卷积输出描述了视频的时空掩盖效应,而且我们使用它来模拟人眼对视频残差的感知情况:掩盖效应弱的地方,残差更容易被感知;掩盖效应强的地方,复杂的背景更能掩盖画面失真。


网络最后是池化层和全连接层。池化层的输入为残差帧经掩盖效应处理后的结果,它代表了人眼可感知残差。全连接层学习整体感知质量和目标质量分数区间的非线性回归关系。



图 4 本文所提出的网络结构图。包含两层二维卷积,四层三维卷积,池化和全连接层。卷积参数表示:(channel,kernel size,stride,padding)


本文转载自 腾讯多媒体实验室公众号。


原文链接:https://mp.weixin.qq.com/s/Kk7J8dLMhHbhksxMumHuwA


2020-01-17 18:06821

评论

发布
暂无评论
发现更多内容

触达率提升 20%,融云推送优化实践

融云 RongCloud

产品 实践 融云

嘉为科技与工银科技正式启动数字研运一体化合作项目

嘉为蓝鲸

百度文心大模型开发者斩获CCF BDCI大赛唯一『最佳算法能力奖』

百度开发者中心

人工智能 数字经济 文心一言

自动化测试是什么?

测吧(北京)科技有限公司

测试

12306系统架构:抢票引起的对大型高并发系统架构的思考

做梦都在改BUG

直播回顾 | 告警全生命周期管理的思路与落地实践

嘉为蓝鲸

IT

软件测试 | 黑盒测试方法—因果图法

测吧(北京)科技有限公司

测试

软件测试 | 黑盒测试方法—场景法

测吧(北京)科技有限公司

测试

什么是软件测试?

测吧(北京)科技有限公司

测试

WeOpsV3.15持续拓展监控能力,支持硬件设备IPMI智能监控

嘉为蓝鲸

IT

有哪些免费的项目进度管理管理工具?对比10款知名进度管理软件

爱吃小舅的鱼

项目管理 项目进度管理软件

安全防火墙软件:Little Snitch 5 激活版

真大的脸盆

Mac 防火墙 Mac 软件 防火墙工具

加速发展的低代码市场

力软低代码开发平台

云原生安全,会有一个较大的潜在市场丨统信软件孟杰

统信软件

云原生 安全 数字化

一文带你掌握轻量化模型设计原则和训练技巧!

Openlab_cosmoplat

工业互联网 开源社区 轻量化模型 openlab

软件测试/测试开发丨聊聊后端Web开发框架(Python)的简单使用

测试人

软件测试 自动化测试 测试开发

强大的字体设计工具:Glyphs 3激活版

真大的脸盆

Mac 字体 字体设计 设计字体 字体管理工具

浙商银行升鑫赢B-1号人民币理财产品

andy

信通院MLOps旗舰级评测,业内首批通过!

百度开发者中心

人工智能 深度学习‘’ 文心一言

【中远海运特运】WeOps产品为业务系统安全稳定保驾护航!

嘉为蓝鲸

【广州银行信用卡中心】5分钟实现一键发布!

嘉为蓝鲸

IT

研云运一体,嘉为蓝鲸助力中国智造扬帆出海!

嘉为蓝鲸

IT

软件测试常用的工具都有哪些-测试常用工具

测吧(北京)科技有限公司

测试

OPPO StarFire全新升级,异构计算突破算力瓶颈

安第斯智能云

人工智能 机器学习 云存储 智能云 端云协同

OPPO大数据诊断平台设计与实践

安第斯智能云

大数据 诊断

唯一入选的制品库!嘉为蓝鲸CPack制品管理平台成功入选!

嘉为蓝鲸

IT

丝滑的打包部署,一套带走

Java你猿哥

Java Docker ssm 部署

量化api现货合约跟单软件开发源代码

开发微hkkf5566

打造江西数智产业高地,百度飞桨人工智能产业赋能中心落户南昌青山湖

百度开发者中心

人工智能 百度飞桨

软件测试/测试开发丨测试右移之logstash完整配置实例

测试人

软件测试 自动化测试 测试开发

基于三维卷积神经网络的全参考视频质量评估算法(二)_文化 & 方法_腾讯多媒体实验室_InfoQ精选文章