写点什么

CVPR 2025 | 火山引擎获得 NTIRE 视频质量评价挑战赛全球第一

  • 2025-04-15
    北京
  • 本文字数:2775 字

    阅读完需:约 9 分钟

大小:1.44M时长:08:21
CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一

近期,在计算机视觉领域最具影响力的「国际竞赛 CVPR 2025 NTIRE」中,火山引擎多媒体实验室团队同学组成“SharpMind”小组,在 NTIRE 2025 Short-form UGC Video Quality Assessment Challenge-Track1-VQA 赛道以显著优势夺冠。基于能力强大的多模态大模型,团队方案成功构建了评估精度、计算效率俱优的画质评价模型,为大模型能力的利用提供了可行参考范式。



本次“SharpMind”参加的 CVPR 2025 NTIRE 视频质量评估赛道,吸引了腾讯、中兴、上海交通大学、北京邮电大学等知名企业和院校参加。夺冠方案通过构建基于 MLLM 教师模型突破专业质量评估性能上限,结合蒸馏架构实现轻量化部署(<120 GFLOPs),达成工业级视频质量评估任务中精度与计算效率的最优平衡。



具体比赛细节和排名可以参考比赛官网:https://codalab.lisn.upsaclay.fr/competitions/21335

 

赛事介绍


CVPR NTIRE(New Trends in Image Restoration and Enhancement)大赛是计算机视觉领域顶会 CVPR 旗下「最具影响力的国际学术竞赛之一」,素有“影像算法奥林匹克”之称。该赛事聚焦视频复原、增强、生成技术及质量评估等底层视觉任务,旨在推动技术突破并解决实际应用难题。本次 VQA 赛道相关信息如下:


  • 内容:赛道一沿用大型短视频质量评价数据集 KVQ,该数据集由快手公司授权采集,联合高校智能媒体实验室(IMCL)进行数据集标注和标准化。包含风景、人群、食物、肖像等 9 个内容场景,其中每个内容比例按照快手短视频平台在线统计量制定, 共计 4200 个短视频。


  • 要求:为提升短视频质量评价模型效率,提升算法的实用性,今年比赛将限制短视频质量评价模型,单视频运行计算开销上限为 120GFlops。鼓励参赛选手使用蒸馏、剪枝等手段对大模型进行加速。

 

研究背景


短视频 UGC 画质评价的研究背景源于移动互联网时代用户生成内容的爆炸式增长与质量评估的复杂性挑战。由于非专业拍摄设备(如手机)的物理限制、动态拍摄环境(如低光照、运动模糊)以及后期处理流程(如过度锐化、多次压缩)的叠加效应,UGC 视频普遍存在混合失真(如块效应、噪声、伪影等),且缺乏高质量参考源,导致传统全参考评价指标(如 PSNR、SSIM)难以准确拟合人眼主观感受。


此外,UGC 内容的多样性(如横竖屏、特效贴纸、二创素材)进一步加剧了失真类型与语义场景的耦合性,例如用户可能更关注主体清晰度而非背景噪声,这要求算法需同时建模技术失真与内容美学特征。

其研究重要性体现在两方面:一是用户体验优化,画质评分直接影响平台内容分发效率与用户留存率,例如通过算法量化视频质量,为推荐系统提供画质权重;二是技术突破需求,UGC 画质评价需解决无参考场景下的泛化性问题,如火山引擎 VQScore 通过细分归因指标(噪声、过曝等)和增强评估(超分质量)构建全链路画质优化闭环,显著提升了跨场景评估的鲁棒性。


当前研究趋势正探索多模态大模型强大能力的迁移和应用,以应对 AIGC 时代的新型失真挑战,并进一步提升相关算法的准确性、鲁棒性。

 

方案概述


针对用户生成内容(UGC)视频质量评估的复杂挑战,研究团队提出了一种基于"教师-学生"知识蒸馏的创新框架。该方案通过两阶段训练机制,在保持高精度评估能力的同时实现模型轻量化,有效解决了传统方法在无参考场景下的泛化性难题。



第一阶段:多模态特征融合的教师模型构建。团队首先设计了一个强大的教师模型(包含 MLLM 多模态大模型以及多种强大的骨干网络),通过多维度的特征提取全面捕捉 UGC 视频的质量特性:


  1. 多骨干特征提取​:利用 DeQA 从多模态大模型中提取 Quality-Aware 特征,采用 SlowFast 网络提取时空运动特征,结合 FAST-VQA 分析局部区域失真,并根据 LIQE 针对不同维度建立视频帧与文本的关联。考虑到人眼视觉系统特性在 UGC 视频的重要性,团队特别引入 HVS-5M 模型提取边缘掩蔽等特征,模拟人类视觉系统对边缘丰富区域敏感的特性。


  1. 特征融合架构​:将视频的关键帧调整为 384×384 的分辨率并给一个端到端可学习的 Swin-B 网络提取关键帧特征并与上述骨干特征拼接,通过两层 MLP 实现特征降维,通过这种方式引入一部分可学习参数弥补冻结骨干网络提取特征的缺陷。训练采用 Adam 优化器(学习率 1×10⁻⁵),在 A100 GPU 上以 batch size 等于 6 进行优化,最终形成具备全面评估 UGC 视频质量的教师模型。


  1. 伪标签生成​:该模型对 3 万条闭源 UGC 视频进行自动标注,生成覆盖模糊、噪声、伪影等混合失真的质量评分数据集,为轻量化学生模型训练奠定基础。


第二阶段:高效学生模型的蒸馏训练。基于教师模型输出的伪标签,团队构建了部署友好的轻量化评估方案:


  1. 帧级知识迁移​:针对一个视频提取其关键帧,采用 224×224 分辨率随机裁剪策略增强数据多样性,同时每一帧的分数被标注为对应视频的分数。创新性地采用分层特征拼接技术,将 Swin-T 网络各层级特征拼接起来达到评估多尺度物体质量的能力。在训练过程中学生网络的训练目标是输出结果与教师标签对齐,保留多尺度质量感知能力。


  1. 优化加速设计​:相比教师模型将 batch size 设置为 6,学生模型采用 64 batch size 并行训练(学习率 1×10⁻³),训练损失函数为 PLCC 以及 SRCC 的和。最终学生模型参数量仅为 33.01M,且推理过程中对一个视频仅需 47.39GFLOPs,但保持与教师网络 90%以上的评估准确率。


技术突破与产业价值。该方案通过三大创新点推动技术边界:


  1. 融合多模态大模型的​混合特征工程:将除了视觉特征以外的多模态大模型特征与多种传统骨干网络特征融合,设计了一个全面的针对 UGC 视频的教师网络,提升了对典型失真(如手抖模糊,伪影)的检测灵敏度。


  1. 动态蒸馏策略​:通过知识蒸馏机制,解决了学生网络在更细粒度维度评分不稳定的问题,使学生模型预测分与 MOS 预测误差低于 0.5。


  1. 轻量化适配优化​:支持从 4K 超清到 540P 低分辨率的全链路评估,在继承多模态大模型网络能力的前提下大幅降低模型参数量以及计算量,为短视频平台内容审核提供落地支持。

 

总结


团队创新性地融合多模态大模型(MLLM)与多种传统骨干网络融合的策略与蒸馏技术,在 NTIRE 2025 Short-form UGC Video Quality Assessment Challenge-Track1-VQA 赛道以显著优势夺冠。该方案通过构建基于 MLLM 教师模型突破专业质量评估性能上限,结合蒸馏架构实现轻量化部署(<120 GFLOPs),达成工业级视频质量评估任务中精度与计算效率的最优平衡。

 

团队介绍


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据技术、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长

2025-04-15 17:599

评论

发布
暂无评论

需求量最大的6个区块链工作

CECBC

自动生成API工具——Swagger3

Java学术趴

7月月更

应用性能管理与链路追踪的关系

穿过生命散发芬芳

链路追踪 7月月更

Nginx Http模块是如何处理请求的?

Ethan

ngnix

Nginx 部署的虚拟主机如何使用 Let's Encrypt 来进行加密 https

HoneyMoose

【刷题记录】4. 寻找两个正序数组的中位数

WangNing

7月月更

C语言入门(一)

逝缘~

c 7月月更

鸿蒙 eTS 开发方式 Image 组件详解【续】

坚果

HarmonyOS OpenHarmony 7月月更

Redis stream性能测试实践【Java版】

FunTester

传统企业要为 Web3 和去中心化做的 11 个准备

CECBC

TSDB与Blockchain

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

【愚公系列】2022年7月 Go教学课程 007-计算机进制和变量命名规范

愚公搬代码

7月月更

Cgroup Cpuset子系统

总想做点什么

初识Linkerd项目

阿泽🧸

Linkerd 7月月更

正则表达式(二)

Jason199

正则表达式 js 7月月更

Binder通信过程

北洋

Andriod 7月月更

想要治好水,龙王也要拜拜这朵云

白洞计划

区块链技术带来司法“加速度”

CECBC

融云入选优秀厂商!|《2022中国信创生态市场研究及选型评估报告》(附下载)发布

融云 RongCloud

2000字教你如何玩转Linux man命令,隐藏技能非常nice

wljslmz

Linux 运维 man 7月月更

C++算法题中对于字符串的一些妙手

KEY.L

7月月更

前端与HTML

小恺

7月月更

Python|「函数」递归与迭代

AXYZdong

Python 7月月更

DelayQueue源码分析-特点与新增

zarmnosaj

7月月更

ORACLE进阶(十)start with connect by 实现递归查询

No Silver Bullet

oracle 递归 7月月更

Cgroup devices子系统

总想做点什么

Java多线程案例之线程池

未见花闻

7月月更

NumPy 与 Python 内置列表计算标准差的区别

宇宙之一粟

Numpy 7月月更

ArrayBlockingQueue源码分析-构造方法

zarmnosaj

7月月更

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一_生成式 AI_火山引擎_InfoQ精选文章