写点什么

两度入选 CVPR,海量视频数据 +AI 大模型加持,快手 KVQ 打造视频质量评价“黄金眼”

快手StreamLake

  • 2024-06-13
    北京
  • 本文字数:2738 字

    阅读完需:约 9 分钟

大小:1.41M时长:08:11
两度入选CVPR,海量视频数据+AI大模型加持,快手KVQ打造视频质量评价“黄金眼”

当前,人类每天创造出约 1.77 亿 TB 的视频数据,累计时长足以从史前时代连续播放到现在。如何准确评判视频质量,并兼顾成本和体验,让有限的带宽和算力真正用在“刀刃”上,成为行业的一大难题。同时,视频从生产到消费的链路很长,编码、处理、传输等环节都会对画质造成影响,行业也亟需有的放矢,为改善用户体验找到有效依据


快手自研的图像/视频质量评估方法 KVQ(Kuaishou Visual Quality)的问世,让复杂的画质指标可以被准确量化,在全链路、全场景实现精准的视频质量评估。快手 KVQ 基于海量的视频数据+AI 大模型训练而成,是针对视频质量的科学量化的衡量手段。快手丰富海量的视频内容和数据积累训练,让 KVQ 具备极强泛化性。


据悉,KVQ 在视频质量评估的过程中,可以综合感知视频的质量、内容、场景、美学、编码、音频等特征,执行多维度评价。相比传统的视频质量评价方法,KVQ 更适合内容、编码和处理手段更多样的平台,其准确率超过传统画质评价算法,可以媲美人眼主观评价。


由此,KVQ 不仅将复杂的视频质量评价体系进行科学量化,实现全链路任一节点的视频质量评估,并辅助归因与调整,指导画质处理与编码,还帮助确定成本与体验的均衡点,实现质效统一。



应用落地场景广泛,KVQ 成为视频质量“判卷人”


在应用落地场景中,快手 KVQ 广泛覆盖音视频及运营、分发、搜索等场景。一方面,在音视频场景中,KVQ 作为画质的准绳,在“生产-处理增强-编码-消费”全链路均发挥重要作用。


具体而言,在生产环节,KVQ 在拍摄/编辑/推流等环节进行监测,能够提前诊断画质隐患,从生产源头发现画质风险。同时基于画质问题的原因,KVQ 可以更针对性地给出改善画质的举措建议,如擦镜头、开灯等,或是开启端侧画质增强来进一步修复。


在处理增强环节,处理前,KVQ 是画质增强算法(去模糊、去噪声、去块效应等)的“判卷人”,每一次处理增强算法的迭代都可交给 KVQ“判卷”,验证效果,提升研发效率;处理中,基于 KVQ 基础特征给出的视频损伤检测结果,更具针对性地触发不同类型的增强算法,对算力进行靶向规划,减少算力浪费;在增强处理后,KVQ 的分数可用来判断是否出现 badcase,进而决策是否重新优化算法。


编码环节,基于 KVQ 对“编码码率-质量曲线”的实时预测(不同码率档位,对应的质量曲线斜率不同),去保障带宽的合理控制,和画质体验的最佳水平。而 KVQ 在转码压缩后的画质监督,可以有效防止“省了带宽但丢了画质”。



消费环节,KVQ 实现多码率决策,能够将清晰度量化,在保障流畅播放的前提下,下发清晰度最高档位。同时在触发端侧后处理上,基于 KVQ 的判断,可以分析一个作品是否适合做端侧超分等后处理,进而提升低质作品清晰度。


此外,在点直播全链路,KVQ 可以做到清晰度长期监控,视频点直播全链路定期巡检,通过 KVQ 分数,判断大盘清晰度是否正常,进而辅助归因与干预。而在点直播全链路中,基于 KVQ 分数判断,也可辅助快速定位造成清晰度明显损失的环节,提升排障效率。


另一方面,在运营、分发、搜索场景中,针对审核风控,KVQ 在机审环节,实现劣质(无意义、黑屏)过滤,以及低质(模糊、噪声过高)限权;在人审环节,作品在获得热度之后,KVQ 辅助审核人员,判断视频画质是否适合继续享有更高流量。


针对推荐分发,KVQ 不仅将低质视频降权,保证消费侧生态体验,还让精品视频池“蓄水”,保障精品作品清晰,并促进新作品冷启动,准确识别画质层面的潜力,帮助热度快速爬坡。针对搜索排序,基于 KVQ 给出的画质评价,实现对搜索结果重排,同时提升优质作品排序。


目前,KVQ 已经全面应用于快手的点直播的生产、转码、消费全链路,同时也已经面向头部客户开放技术支持。

 

海量数据与大模型加持,KVQ 突破传统评价方法瓶颈


综合来看,传统的视频质量评价方法主要分为主观方法和客观方法。其中,主观方法以人工方式评估视频质量,虽然准确度高,但人力成本巨大,缺乏时效性,不适合规模投入


而客观方法基于设计出的算法模型,在机器上自动执行视频质量评估,如 SSIM、VMAF、PSNR 等传统业界标杆方法。这类方法依据人工对视频失真的理解来设计,容易因考虑不周或难以实现,使得模型对视频质量表示不充分,特别是在面对海量 UGC 视频时,可能出现误判。


例如,一个源视频在处理阶段经过了过度的锐化,在人眼主观看来会觉得观感不佳,但在传统评价方法看来,可能反而觉得效果不错。



UGC 的视频种类繁杂,而且源视频质量、平台对源视频的处理,编码的压缩档位都参差不齐。各种环节叠加,加剧了画质问题的复杂性。对传统的评价模式来说,严重超纲,容易失灵。

在训练过程中,KVQ 又是如何摆脱传统方法的种种瓶颈?一是数据融合训练,“大力出奇迹”。基于快手海量、丰富的视频标注数据,KVQ 在训练过程中“见多识广”,足以应对复杂的 UGC 短视频特征,实现准确评价。



二是大模型训练,创造“代差优势”。快手在音视频技术领域始终坚持前沿探索与技术验证,率先投入大模型预训练实践。在大模型预训练方面,快手基于海量 UGC 视频和 Transformer 架构实现 AI 推理,让 KVQ 在面对不同类型视频时可以“触类旁通”,理性评价,并实现多维的失真感知,即空间感知(图像内容本身的失真感知)、时间感知(视频播放过程中,连续时域上的失真变化感知)。


三是迭代飞轮,快速优化表现。KVQ 在应用场景中持续收集 badcase 反馈,不断迭代,同时针对线上消费侧视频大盘进行巡检,定期捞取检测,发现问题。针对内容多样性、处理多样性、编解码多样性等问题,KVQ 持续调优,目前已迭代至第五代,多个场景均达到 Golden Eye(人眼的最佳主观评价)水平。

 

能力指标达业界标杆级水平,KVQ 赋能客户平衡成本与体验


当前,无论是和学术界众多 SOTA 领先方法的效果比对,还是和 SSIM、AVQT、VMAF 等工业界的标杆方法比对,KVQ 都展示了出众的技术优势,在各数据集性能表现以及主观一致性指标等方面,处于明显领先地位。



同时,KVQ 的保序性表现也十分优秀。保序性作为视频质量评估重点依赖的指标,与终极目标“是否与人眼主观感受质量一致”挂钩。其逻辑在于,在同源视频对的清晰度区分中,评估“机器预测顺序”与“人眼主观顺序”的一致性,包含点播/直播多档位、分辨率、多码率等测试场景。KVQ 在多个场景维度的保序性指标,均达到 Golden Eye 水平。



在已经拉开帷幕的计算机视觉顶会 CVPR 2024 中,快手KVQ相关论文被正式收录,展示了 KVQ 在短视频平台上进行视频质量评估的重要作用。


据了解,基于快手的海量用户反馈迭代,KVQ 的泛化性越来越高,目前已经服务多家头部互联网客户,有效帮助客户实现高效准确的视频质量评估。


纵观互联网行业发展可见,视频平台的成本和体验,始终是天平上难以取舍的两端,在短视频直播时代这一两难抉择情况愈加白热化。快手 KVQ 这把“尺子”,经过千锤百炼,为打造极致的音视频体验而生,将持续帮助更多行业伙伴,在天平上找到最优解。


2024-06-13 15:416532

评论

发布
暂无评论
发现更多内容

Linux下BusyBox根文件系统制作

DS小龙哥

4月月更

活动精彩预告 | 维塔士+龙智:数字化打造游戏行业「头号玩家」

龙智—DevSecOps解决方案

数字化转型 游戏开发 游戏引擎

架构训练营 - 模块 3- 作业

kenlu

模块三作业(学生管理系统架构设计文档)

Dean.Zhang

一文读懂Seek Tiger推出创世节点的意义

西柚子

你不知道的 parseInt?

战场小包

JavaScript 前端 4月月更

IoT平台如何实现业务配置中心

华为云开发者联盟

运维 物联网平台 内存 业务配置 业务配置中心

Go 语言入门很简单:sort 包

宇宙之一粟

排序 Go 语言 4月月更

spring-cloud-kubernetes与k8s的configmap

程序员欣宸

Java 4月月更

为什么各大APP都推出了适老版?

InfoQ IT百科

热敏电阻、RTD、热电偶的原理和特性

不脱发的程序猿

PT100 热敏电阻 RTD 热电偶

Spring核心流程分析

IT巅峰技术

Robot OS网络通信MQTT实战

轻口味

c++ android IoT mqtt 4月月更

学生管理系统详细架构设计文档

踩着太阳看日出

架构训练营

阿里云移动研发平台EMAS,3月产品动态

移动研发平台EMAS

ios 阿里云 移动应用 Andriod 移动推送

Kubernetes 中数据包的生命周期 -- 第 1 部分

Se7en

如何快速搭建一个像叮咚买菜这样的APP?

InfoQ IT百科

Grpc服务开发和接口测试初探【Java】

FunTester

睡眠革命

石刻掌纹

事务的隔离级别与MVCC

蝉沐风

MySQL 事务隔离级别 事务

Python图像处理丨OpenCV+Numpy库读取与修改像素

华为云开发者联盟

Python OpenCV 图像处理 Numpy库 像素

以用户体验五要素的思路,如何编写产品需求文档(PRD)

小炮

需求文档

Python 中删除列表元素的三种方法

AlwaysBeta

Python List 编程 程序员 列表

[Day21]-[动态规划] 494. 目标和

方勇(gopher)

LeetCode 动态规划 数据结构算法

在线CSV转XML工具

入门小站

工具

OpenMLDB Pulsar Connector:高效打通实时数据到特征工程

第四范式开发者社区

数据库 数据传输 OpenMLDB 特征 特征平台

Pipy MQTT 代理之(三)Logging

Flomesh

IoT 代理 mqtt Pipy

谁研发了APP弹窗功能?

InfoQ IT百科

现在有没有可以真正称得上是元宇宙的应用?

InfoQ IT百科

linux之sshpass命令

入门小站

Linux

在线YAML转JSON工具

入门小站

工具

两度入选CVPR,海量视频数据+AI大模型加持,快手KVQ打造视频质量评价“黄金眼”_AI&大模型_InfoQ精选文章