速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

火山引擎夺得 AIM2024 大赛超分质量评估赛道冠军

  • 2024-10-31
    北京
  • 本文字数:1663 字

    阅读完需:约 5 分钟

大小:863.83K时长:04:54
火山引擎夺得AIM2024大赛超分质量评估赛道冠军

近日,第 2024 届 ECCV 联合举办的 AIM Workshop 大赛公布比赛结果,在视频超分辨率质量评估赛道上,火山引擎多媒体实验室凭借基于大模型的画质评估算法获得冠军,技术能力达到行业领先水平。


参赛队伍

大赛背景

AIM (Advances in Image Manipulation) 2024 是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议 ECCV 上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。

视频超分辨率质量评估赛道比赛结果

近年来视频和图像超分辨率(SR)技术得到了广泛学术研究,同时在短视频业务服务端/客户端中有着广泛的应用,它能够显著提升用户的主观观看体验,提高内容的清晰度和视觉吸引力。为了评估不同超分辨率算法的主观画质提升效果,需要使用图像和视频质量评估指标。然而由于难以捕捉超分辨率引发的复杂多样的增强伪影,传统算法 PSNR 和 SSIM 以及其他基于深度学习的方法均被证明无法准确估计超分辨率图像的质量。因此,超分辨率质量评估与普通的图像和视频质量评估任务是有所不同的,本次竞赛旨在针对超分辨率进行专用评估指标的研究,推动这一领域的发展。


冠军算法介绍

超分辨率画质评估的主要挑战在于如何捕捉超分辨率画质算法处理后内容的画质变化因素,相比传统质量评估需要考虑更复杂多样化的处理算法带来伪影/涂抹/过锐等失真类型。由于有限的样本数量和数据集大小,端到端的训练方案无法达到理想效果,经过多轮方案验证,团队最终采用 Rich Quality-Aware Feature 算法方案架构,针对多样化的视觉内容和复杂的失真类型,利用空域模型微调,同时利用丰富离线视频特征库和图像特征库来增强模型的泛化能力。微调模型采用了预训练于 LSVQ 数据集的 Swin Transformer-B 作为主干网络来提取空域特征,离线视频特征库包含 SlowFast 时域特征和 Fast-VQA 时空联合特征;离线图像特征库提供了全面的帧级特征表示,其中 LIQE 包含质量感知、失真特定及场景特定的信息,而 Q-Align 则包含来自多模态模型(MLLM)的强大质量感知特征。最终将可学习和不可学习的特征拼接在一起,经非线性回归层得到预测分数,最终分数通过 Sigmoid 函数转换为 [0-1] 范围。


除了算法层面的综合分析设计和数据增广处理等,团队对数据集进行深入的分析理解,数据集根据失真的难度分为 Easy/Moderate 和 Hard 三种难度,Hard 难度包含了目前大多数评估指标无法解决的失真类型,从训练集的主观评分分布我们也观察到困难组的视频主观评分相比简单组和中等组更难区分,为了增强泛化能力防止算法模型在 easy 数据集出现过拟合的问题,除了 PLCC 损失外,我们还应用了成对排序的 hinge 损失来引导模型区分困难样本,同时快速学习简单样本。训练损失函数为:

其中排序边距设为 0.05。我们在 8 块 A100-SXM-80GB GPU 上进行了 100 个 epoch 的训练,学习率为 1e-5,批次大小为 16。我们随机选取了 80% 的视频作为训练数据,20% 的视频用于验证,并选择在验证集中表现最佳的模型进行最终测试。


最终团队在 private 数据集获得最好的效果,通过 public 和 private 两部分内容的稳定发挥获得第一名的成绩。

总结

火山引擎多媒体实验室在视频超分质量评估领域实现了突破性的进展,并获得了该赛道冠军。增强处理算法质量评估算法的沉淀积累可以帮助处理算法和应用策略的迭代优化,从而更高效地给用户提供更为清晰主观视觉体验,有助于推动数字媒体行业向着更加智能化、高效化的方向发展。


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长

2024-10-31 10:388296

评论 1 条评论

发布
用户头像
路过....
2024-11-29 14:51 · 北京
回复
没有更多了
发现更多内容

数字医疗时代的数据安全如何保障?

CECBC

Flutter 路由及路由拦截跳转404

岛上码农

flutter ios Android开发 移动端 3月月更

URL的四种形式对比说明

源字节1号

前端开发 后端开发 网站开发

在线正则表达式大全测试

入门小站

工具

kubeadm工作原理-kubeadm init原理分析-kubeadm join原理分析

良凯尔

容器 云原生 kubeadm #Kubernetes# Kubernetes 集群

超分算法在 WebRTC 高清视频传输弱网优化中的应用

融云 RongCloud

PyTorch

区块链等技术助力北京海关监管

CECBC

Paxos vs. Raft:我们对共识算法达成共识了吗?

多颗糖

分布式系统 raft PAXOS

服务器防渗透--信息收集

喀拉峻

网络安全

VuePress 博客搭建系列 33 篇正式完结!

冴羽

JavaScript Vue 前端 vuepress 博客搭建

360大数据技术专家 程建云:IoTDB在360的落地实践 | Apache IoTDB Talk

Apache IoTDB

时序数据库 IoTDB Apache IoTDB

基于微信小程序的实验室预约小程序平台详细设计

CC同学

一文带你了解 Python 中的生成器

踏雪痕

Python 生成器 3月程序媛福利 3月月更

深入浅出 Java FileChannel 的堆外内存使用

Apache IoTDB

加密货币监控和区块链分析如何帮助避免加密货币欺诈?

CECBC

融云猿桌派:35 岁程序员,正值当打之年,尚有星辰大海

融云 RongCloud

程序员

在线Javascript美化格式化工具

入门小站

工具

OceanBase 开源负责人纪君祥聊 社区版 2022 Roadmap

OceanBase 数据库

oceanbase OceanBase 开源

JS Array数组几个循环实用方法总结

MegaQi

JavaScrip 测试发开 web前端开发

高层次人才一站式服务平台系统开发

a13823115807

区块链架构下 智慧城市发展加速

CECBC

小程序电商业务微服务拆分及微服务基础设施选型

Geek_36cc7c

Linux之file命令

入门小站

Linux

前端食堂技术周刊第 30 期:Vercel 支持零配置部署使用 pnpm 项目、React 新文档更新、Angular Roadmap、Remix Stacks

童欧巴

JavaScript 编程 前端 周刊 资讯

java版gRPC实战之二:服务发布和调用

程序员欣宸

Java gRPC

开放报名丨《音视频社交新风口》线上峰会,聚焦海外社交生态升级

融云 RongCloud

架构实战营-模块一-作业

CityAnimal

架构实战营 #架构实战营 「架构实战营」

java版gRPC实战之三:服务端流

程序员欣宸

gRPC

“中本聪岛”加密乌托邦

CECBC

黑匣子为什么难成为“云匣子”?

脑极体

[Day3]-[快慢指针]解决链表问题

方勇(gopher)

LeetCode 数据结构与算法

火山引擎夺得AIM2024大赛超分质量评估赛道冠军_字节跳动_火山引擎_InfoQ精选文章