写点什么

两度入选 CVPR,海量视频数据 +AI 大模型加持,快手 KVQ 打造视频质量评价“黄金眼”

快手StreamLake

  • 2024-06-13
    北京
  • 本文字数:2738 字

    阅读完需:约 9 分钟

大小:1.41M时长:08:11
两度入选CVPR,海量视频数据+AI大模型加持,快手KVQ打造视频质量评价“黄金眼”

当前,人类每天创造出约 1.77 亿 TB 的视频数据,累计时长足以从史前时代连续播放到现在。如何准确评判视频质量,并兼顾成本和体验,让有限的带宽和算力真正用在“刀刃”上,成为行业的一大难题。同时,视频从生产到消费的链路很长,编码、处理、传输等环节都会对画质造成影响,行业也亟需有的放矢,为改善用户体验找到有效依据


快手自研的图像/视频质量评估方法 KVQ(Kuaishou Visual Quality)的问世,让复杂的画质指标可以被准确量化,在全链路、全场景实现精准的视频质量评估。快手 KVQ 基于海量的视频数据+AI 大模型训练而成,是针对视频质量的科学量化的衡量手段。快手丰富海量的视频内容和数据积累训练,让 KVQ 具备极强泛化性。


据悉,KVQ 在视频质量评估的过程中,可以综合感知视频的质量、内容、场景、美学、编码、音频等特征,执行多维度评价。相比传统的视频质量评价方法,KVQ 更适合内容、编码和处理手段更多样的平台,其准确率超过传统画质评价算法,可以媲美人眼主观评价。


由此,KVQ 不仅将复杂的视频质量评价体系进行科学量化,实现全链路任一节点的视频质量评估,并辅助归因与调整,指导画质处理与编码,还帮助确定成本与体验的均衡点,实现质效统一。



应用落地场景广泛,KVQ 成为视频质量“判卷人”


在应用落地场景中,快手 KVQ 广泛覆盖音视频及运营、分发、搜索等场景。一方面,在音视频场景中,KVQ 作为画质的准绳,在“生产-处理增强-编码-消费”全链路均发挥重要作用。


具体而言,在生产环节,KVQ 在拍摄/编辑/推流等环节进行监测,能够提前诊断画质隐患,从生产源头发现画质风险。同时基于画质问题的原因,KVQ 可以更针对性地给出改善画质的举措建议,如擦镜头、开灯等,或是开启端侧画质增强来进一步修复。


在处理增强环节,处理前,KVQ 是画质增强算法(去模糊、去噪声、去块效应等)的“判卷人”,每一次处理增强算法的迭代都可交给 KVQ“判卷”,验证效果,提升研发效率;处理中,基于 KVQ 基础特征给出的视频损伤检测结果,更具针对性地触发不同类型的增强算法,对算力进行靶向规划,减少算力浪费;在增强处理后,KVQ 的分数可用来判断是否出现 badcase,进而决策是否重新优化算法。


编码环节,基于 KVQ 对“编码码率-质量曲线”的实时预测(不同码率档位,对应的质量曲线斜率不同),去保障带宽的合理控制,和画质体验的最佳水平。而 KVQ 在转码压缩后的画质监督,可以有效防止“省了带宽但丢了画质”。



消费环节,KVQ 实现多码率决策,能够将清晰度量化,在保障流畅播放的前提下,下发清晰度最高档位。同时在触发端侧后处理上,基于 KVQ 的判断,可以分析一个作品是否适合做端侧超分等后处理,进而提升低质作品清晰度。


此外,在点直播全链路,KVQ 可以做到清晰度长期监控,视频点直播全链路定期巡检,通过 KVQ 分数,判断大盘清晰度是否正常,进而辅助归因与干预。而在点直播全链路中,基于 KVQ 分数判断,也可辅助快速定位造成清晰度明显损失的环节,提升排障效率。


另一方面,在运营、分发、搜索场景中,针对审核风控,KVQ 在机审环节,实现劣质(无意义、黑屏)过滤,以及低质(模糊、噪声过高)限权;在人审环节,作品在获得热度之后,KVQ 辅助审核人员,判断视频画质是否适合继续享有更高流量。


针对推荐分发,KVQ 不仅将低质视频降权,保证消费侧生态体验,还让精品视频池“蓄水”,保障精品作品清晰,并促进新作品冷启动,准确识别画质层面的潜力,帮助热度快速爬坡。针对搜索排序,基于 KVQ 给出的画质评价,实现对搜索结果重排,同时提升优质作品排序。


目前,KVQ 已经全面应用于快手的点直播的生产、转码、消费全链路,同时也已经面向头部客户开放技术支持。

 

海量数据与大模型加持,KVQ 突破传统评价方法瓶颈


综合来看,传统的视频质量评价方法主要分为主观方法和客观方法。其中,主观方法以人工方式评估视频质量,虽然准确度高,但人力成本巨大,缺乏时效性,不适合规模投入


而客观方法基于设计出的算法模型,在机器上自动执行视频质量评估,如 SSIM、VMAF、PSNR 等传统业界标杆方法。这类方法依据人工对视频失真的理解来设计,容易因考虑不周或难以实现,使得模型对视频质量表示不充分,特别是在面对海量 UGC 视频时,可能出现误判。


例如,一个源视频在处理阶段经过了过度的锐化,在人眼主观看来会觉得观感不佳,但在传统评价方法看来,可能反而觉得效果不错。



UGC 的视频种类繁杂,而且源视频质量、平台对源视频的处理,编码的压缩档位都参差不齐。各种环节叠加,加剧了画质问题的复杂性。对传统的评价模式来说,严重超纲,容易失灵。

在训练过程中,KVQ 又是如何摆脱传统方法的种种瓶颈?一是数据融合训练,“大力出奇迹”。基于快手海量、丰富的视频标注数据,KVQ 在训练过程中“见多识广”,足以应对复杂的 UGC 短视频特征,实现准确评价。



二是大模型训练,创造“代差优势”。快手在音视频技术领域始终坚持前沿探索与技术验证,率先投入大模型预训练实践。在大模型预训练方面,快手基于海量 UGC 视频和 Transformer 架构实现 AI 推理,让 KVQ 在面对不同类型视频时可以“触类旁通”,理性评价,并实现多维的失真感知,即空间感知(图像内容本身的失真感知)、时间感知(视频播放过程中,连续时域上的失真变化感知)。


三是迭代飞轮,快速优化表现。KVQ 在应用场景中持续收集 badcase 反馈,不断迭代,同时针对线上消费侧视频大盘进行巡检,定期捞取检测,发现问题。针对内容多样性、处理多样性、编解码多样性等问题,KVQ 持续调优,目前已迭代至第五代,多个场景均达到 Golden Eye(人眼的最佳主观评价)水平。

 

能力指标达业界标杆级水平,KVQ 赋能客户平衡成本与体验


当前,无论是和学术界众多 SOTA 领先方法的效果比对,还是和 SSIM、AVQT、VMAF 等工业界的标杆方法比对,KVQ 都展示了出众的技术优势,在各数据集性能表现以及主观一致性指标等方面,处于明显领先地位。



同时,KVQ 的保序性表现也十分优秀。保序性作为视频质量评估重点依赖的指标,与终极目标“是否与人眼主观感受质量一致”挂钩。其逻辑在于,在同源视频对的清晰度区分中,评估“机器预测顺序”与“人眼主观顺序”的一致性,包含点播/直播多档位、分辨率、多码率等测试场景。KVQ 在多个场景维度的保序性指标,均达到 Golden Eye 水平。



在已经拉开帷幕的计算机视觉顶会 CVPR 2024 中,快手KVQ相关论文被正式收录,展示了 KVQ 在短视频平台上进行视频质量评估的重要作用。


据了解,基于快手的海量用户反馈迭代,KVQ 的泛化性越来越高,目前已经服务多家头部互联网客户,有效帮助客户实现高效准确的视频质量评估。


纵观互联网行业发展可见,视频平台的成本和体验,始终是天平上难以取舍的两端,在短视频直播时代这一两难抉择情况愈加白热化。快手 KVQ 这把“尺子”,经过千锤百炼,为打造极致的音视频体验而生,将持续帮助更多行业伙伴,在天平上找到最优解。


2024-06-13 15:415702

评论

发布
暂无评论

一文读懂 $mash 通证 “Fair Launch” 规则(幸运池玩法解读篇)

西柚子

K8S学习指南(2)-docker的基本使用

俞兆鹏

程序性能优化全能手册

快乐非自愿限量之名

php 性能优化

TuGraph Analytics作业监控面板:运行时组件上的高效分析工具

TuGraphAnalytics

分布式 监控 图计算

【Redis技术专区】「原理分析」探讨Redis6.0为何需要启用多线程

洛神灬殇

redis 多线程 原理分析 并发机制 2024年第一篇文章

【Redis深度专题】「核心技术提升」从源码角度探究Redis服务的内存使用、清理以及逐出等底层实现原理

洛神灬殇

redis 底层原理 清理缓存 原理机制 功能实现 2024年第二篇文章

macOS 14 Sonoma(最新MacOS系统) pkg完整安装包 14.2正式版

Rose

MegEngine 11-12 双月报:新版本发布,开发者福利课程,MegEngine 使用技巧,精彩不容错过!

MegEngineBot

深度学习 开源 框架 寒武纪

Scrum敏捷研发管理流程及示例

顿顿顿

Scrum 敏捷开发 Scrum Master 敏捷项目管理 敏捷研发管理工具

5G-A,一根蓄满能量的弹簧

脑极体

5G

软件测试/测试开发/全日制|pytest用例执行顺序,这篇文章就够了

霍格沃兹测试开发学社

【分布式技术专题】「分析Web服务器架构」Tomcat服务器的运行架构和LVS负载均衡的运行机制(修订版)

洛神灬殇

tomcat 分布式 分布式技术 架构原理 2024年第三篇文章

一图回顾 Apache IoTDB 的 2023!

Apache IoTDB

软件测试/测试开发/全日制|Pytest参数化神器,pytest.mark.parametrize()使用

霍格沃兹测试开发学社

通过聚道云软件连接器实现金蝶软件与客如云软件的无缝对接

聚道云软件连接器

案例分享

一款便捷操作移动设备的PC工具

iofomo

android 开发工具 测试工具 PC ios 开发

解读 $mash 通证 “Fair Launch” 规则,将公平发挥极致?(Staking 玩法)

石头财经

解读 $mash 通证 “Fair Launch” 规则(Staking 玩法解读篇)

BlockChain先知

软件测试/测试开发/全日制|Pytest都有哪些命名规则?

霍格沃兹测试开发学社

One Switch 让你的 Mac 也能拥有控制中心

Rose

One Switch下载 苹果Mac 必备 系统功能快速开关工具

K8S学习指南(3)-minikube的安装

俞兆鹏

恭喜 Databend 上榜 2023 开源创新榜「优秀开源项目 」

Databend

IBM SPSS Statistics 默认工具栏缺失怎么办?

Rose

支持M1/M2,Axure RP 9授权密钥激活可用 附 Axure RP 9激活教程

Rose

Axure RP 9汉化 原型设计软件 Axure RP 9破解版 Axure RP 9授权

解读 $mash 通证 “Fair Launch” 规则,将公平发挥极致?(幸运池玩法)

石头财经

C 语言指针完全指南:创建、解除引用、指针与数组关系解析

小万哥

程序人生 编程语言 软件工程 C/C++ 后端开发

避免重复扣款:分布式支付系统的幂等性原理与实践

隐墨星辰

幂等性 支付系统设计与实现 全局幂等 防止重复扣款

一文读懂 $mash 通证 “Fair Launch” 规则(幸运池玩法解读篇)

股市老人

【Mac/win】Topaz Gigapixel AI v6.3.3 绿色便携版 自带激活补丁

Rose

图片放大工具 Topaz Gigapixel AI便携版 Topaz Gigapixel AI教程

聚道云软件连接器助力某动漫行业公司实现财务自动化

聚道云软件连接器

案例分享

两度入选CVPR,海量视频数据+AI大模型加持,快手KVQ打造视频质量评价“黄金眼”_AI&大模型_InfoQ精选文章