HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

两度入选 CVPR,海量视频数据 +AI 大模型加持,快手 KVQ 打造视频质量评价“黄金眼”

快手StreamLake

  • 2024-06-13
    北京
  • 本文字数:2738 字

    阅读完需:约 9 分钟

大小:1.41M时长:08:11
两度入选CVPR,海量视频数据+AI大模型加持,快手KVQ打造视频质量评价“黄金眼”

当前,人类每天创造出约 1.77 亿 TB 的视频数据,累计时长足以从史前时代连续播放到现在。如何准确评判视频质量,并兼顾成本和体验,让有限的带宽和算力真正用在“刀刃”上,成为行业的一大难题。同时,视频从生产到消费的链路很长,编码、处理、传输等环节都会对画质造成影响,行业也亟需有的放矢,为改善用户体验找到有效依据


快手自研的图像/视频质量评估方法 KVQ(Kuaishou Visual Quality)的问世,让复杂的画质指标可以被准确量化,在全链路、全场景实现精准的视频质量评估。快手 KVQ 基于海量的视频数据+AI 大模型训练而成,是针对视频质量的科学量化的衡量手段。快手丰富海量的视频内容和数据积累训练,让 KVQ 具备极强泛化性。


据悉,KVQ 在视频质量评估的过程中,可以综合感知视频的质量、内容、场景、美学、编码、音频等特征,执行多维度评价。相比传统的视频质量评价方法,KVQ 更适合内容、编码和处理手段更多样的平台,其准确率超过传统画质评价算法,可以媲美人眼主观评价。


由此,KVQ 不仅将复杂的视频质量评价体系进行科学量化,实现全链路任一节点的视频质量评估,并辅助归因与调整,指导画质处理与编码,还帮助确定成本与体验的均衡点,实现质效统一。



应用落地场景广泛,KVQ 成为视频质量“判卷人”


在应用落地场景中,快手 KVQ 广泛覆盖音视频及运营、分发、搜索等场景。一方面,在音视频场景中,KVQ 作为画质的准绳,在“生产-处理增强-编码-消费”全链路均发挥重要作用。


具体而言,在生产环节,KVQ 在拍摄/编辑/推流等环节进行监测,能够提前诊断画质隐患,从生产源头发现画质风险。同时基于画质问题的原因,KVQ 可以更针对性地给出改善画质的举措建议,如擦镜头、开灯等,或是开启端侧画质增强来进一步修复。


在处理增强环节,处理前,KVQ 是画质增强算法(去模糊、去噪声、去块效应等)的“判卷人”,每一次处理增强算法的迭代都可交给 KVQ“判卷”,验证效果,提升研发效率;处理中,基于 KVQ 基础特征给出的视频损伤检测结果,更具针对性地触发不同类型的增强算法,对算力进行靶向规划,减少算力浪费;在增强处理后,KVQ 的分数可用来判断是否出现 badcase,进而决策是否重新优化算法。


编码环节,基于 KVQ 对“编码码率-质量曲线”的实时预测(不同码率档位,对应的质量曲线斜率不同),去保障带宽的合理控制,和画质体验的最佳水平。而 KVQ 在转码压缩后的画质监督,可以有效防止“省了带宽但丢了画质”。



消费环节,KVQ 实现多码率决策,能够将清晰度量化,在保障流畅播放的前提下,下发清晰度最高档位。同时在触发端侧后处理上,基于 KVQ 的判断,可以分析一个作品是否适合做端侧超分等后处理,进而提升低质作品清晰度。


此外,在点直播全链路,KVQ 可以做到清晰度长期监控,视频点直播全链路定期巡检,通过 KVQ 分数,判断大盘清晰度是否正常,进而辅助归因与干预。而在点直播全链路中,基于 KVQ 分数判断,也可辅助快速定位造成清晰度明显损失的环节,提升排障效率。


另一方面,在运营、分发、搜索场景中,针对审核风控,KVQ 在机审环节,实现劣质(无意义、黑屏)过滤,以及低质(模糊、噪声过高)限权;在人审环节,作品在获得热度之后,KVQ 辅助审核人员,判断视频画质是否适合继续享有更高流量。


针对推荐分发,KVQ 不仅将低质视频降权,保证消费侧生态体验,还让精品视频池“蓄水”,保障精品作品清晰,并促进新作品冷启动,准确识别画质层面的潜力,帮助热度快速爬坡。针对搜索排序,基于 KVQ 给出的画质评价,实现对搜索结果重排,同时提升优质作品排序。


目前,KVQ 已经全面应用于快手的点直播的生产、转码、消费全链路,同时也已经面向头部客户开放技术支持。

 

海量数据与大模型加持,KVQ 突破传统评价方法瓶颈


综合来看,传统的视频质量评价方法主要分为主观方法和客观方法。其中,主观方法以人工方式评估视频质量,虽然准确度高,但人力成本巨大,缺乏时效性,不适合规模投入


而客观方法基于设计出的算法模型,在机器上自动执行视频质量评估,如 SSIM、VMAF、PSNR 等传统业界标杆方法。这类方法依据人工对视频失真的理解来设计,容易因考虑不周或难以实现,使得模型对视频质量表示不充分,特别是在面对海量 UGC 视频时,可能出现误判。


例如,一个源视频在处理阶段经过了过度的锐化,在人眼主观看来会觉得观感不佳,但在传统评价方法看来,可能反而觉得效果不错。



UGC 的视频种类繁杂,而且源视频质量、平台对源视频的处理,编码的压缩档位都参差不齐。各种环节叠加,加剧了画质问题的复杂性。对传统的评价模式来说,严重超纲,容易失灵。

在训练过程中,KVQ 又是如何摆脱传统方法的种种瓶颈?一是数据融合训练,“大力出奇迹”。基于快手海量、丰富的视频标注数据,KVQ 在训练过程中“见多识广”,足以应对复杂的 UGC 短视频特征,实现准确评价。



二是大模型训练,创造“代差优势”。快手在音视频技术领域始终坚持前沿探索与技术验证,率先投入大模型预训练实践。在大模型预训练方面,快手基于海量 UGC 视频和 Transformer 架构实现 AI 推理,让 KVQ 在面对不同类型视频时可以“触类旁通”,理性评价,并实现多维的失真感知,即空间感知(图像内容本身的失真感知)、时间感知(视频播放过程中,连续时域上的失真变化感知)。


三是迭代飞轮,快速优化表现。KVQ 在应用场景中持续收集 badcase 反馈,不断迭代,同时针对线上消费侧视频大盘进行巡检,定期捞取检测,发现问题。针对内容多样性、处理多样性、编解码多样性等问题,KVQ 持续调优,目前已迭代至第五代,多个场景均达到 Golden Eye(人眼的最佳主观评价)水平。

 

能力指标达业界标杆级水平,KVQ 赋能客户平衡成本与体验


当前,无论是和学术界众多 SOTA 领先方法的效果比对,还是和 SSIM、AVQT、VMAF 等工业界的标杆方法比对,KVQ 都展示了出众的技术优势,在各数据集性能表现以及主观一致性指标等方面,处于明显领先地位。



同时,KVQ 的保序性表现也十分优秀。保序性作为视频质量评估重点依赖的指标,与终极目标“是否与人眼主观感受质量一致”挂钩。其逻辑在于,在同源视频对的清晰度区分中,评估“机器预测顺序”与“人眼主观顺序”的一致性,包含点播/直播多档位、分辨率、多码率等测试场景。KVQ 在多个场景维度的保序性指标,均达到 Golden Eye 水平。



在已经拉开帷幕的计算机视觉顶会 CVPR 2024 中,快手KVQ相关论文被正式收录,展示了 KVQ 在短视频平台上进行视频质量评估的重要作用。


据了解,基于快手的海量用户反馈迭代,KVQ 的泛化性越来越高,目前已经服务多家头部互联网客户,有效帮助客户实现高效准确的视频质量评估。


纵观互联网行业发展可见,视频平台的成本和体验,始终是天平上难以取舍的两端,在短视频直播时代这一两难抉择情况愈加白热化。快手 KVQ 这把“尺子”,经过千锤百炼,为打造极致的音视频体验而生,将持续帮助更多行业伙伴,在天平上找到最优解。


2024-06-13 15:415895

评论

发布
暂无评论

使用Spring Boot和Docker构建微服务架构(四)

Tux Hu

Docker 架构 容器 微服务 Spring Boot

爬虫框架Scrapy应用实践-淘宝保险频道数据抓取【1】-前期准备

hadesxiong

Python 爬虫 保险 Scrapy

产品周刊 | 第 16 期(20200524)

八味阁

产品 设计 产品经理 产品设计

后台定时统计任务太耗时如何优化一下

zhuoqianmingyue

线程池

代码刚提交暂存区,组长突然要我把新增代码 Commit另一分支怎么办?

zhuoqianmingyue

git

使用Spring Boot和Docker构建微服务架构(一)

Tux Hu

Docker 架构 容器 微服务 Spring Boot

配置国内的pip源以提高使用pip安装python软件包的速度

良少

Python pip

2020年3月北京BGP机房网络质量评测报告

博睿数据

运维 APM 机房 数据中心 拨测

程序员的修行之路-保持良好的心态

牧马人

程序员

短视频时代下的知识摄取

Neco.W

学习 知识管理 知识体系 短视频

足不出户“逛”银行,37家城商行、农商行手机银行App性能大比拼

博睿数据

APM App 评测 网银 银行

企业微信机器人在大型财务共享中心的应用实践

DT极客

快速入门 Nacos 作为配置中心操作

zhuoqianmingyue

nacos SpringBoot 2

卡巴斯基产品本地化用时能缩短 77%,怎么做到的?

葛仲君

项目管理 软件开发 本地化 开发流程

Java | @Override 不要再把它当成可有可无的了

YoungZY

Java 注解 Override annotation

zookeeper到nacos的迁移实践

捉虫大师

架构 nacos

游戏夜读 | 世界两大游戏评论!

game1night

数据产品经理实战-DMP搭建

第519区

产品经理 营销

程序员的修行之路-关于编程语言

牧马人

程序员

ARTS第一周

困到清醒

ARTS 打卡计划 起跑

程序员的修行之路-关于编程语言

牧马人

程序员

玩转SpringBoot2.x之缓存对象

zhuoqianmingyue

redis springboot

Spring Cloud 和 Dubbo 哪个会被淘汰?

程序猿DD

Spring Cloud dubbo

Jsp页面报错后如何找到提示信息中的_jsp.java文件

阡陌r

微信gif图片大小的规则

石云升

微信 GIF

2020年3月云主机性能评测报告

博睿数据

云计算 运维 机房 数据中心 主机

使用Spring Boot和Docker构建微服务架构(二)

Tux Hu

Docker 架构 容器 微服务 Spring Boot

微软:正式发布针对 .NET Core的 Winform 设计器

葡萄城技术团队

.net 微软 Win .net core

使用Spring Boot和Docker构建微服务架构(三)

Tux Hu

Docker 架构 容器 微服务 Spring Boot

是什么在背后支撑起“带货一哥”李佳琦?

博睿数据

负载均衡 APM 压测 秒杀 并发

linux 账户及安全管理(一 账户管理)

牧马人

Linux

两度入选CVPR,海量视频数据+AI大模型加持,快手KVQ打造视频质量评价“黄金眼”_AI&大模型_InfoQ精选文章