9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

火山引擎夺得 AIM2024 大赛超分质量评估赛道冠军

  • 2024-10-31
    北京
  • 本文字数:1663 字

    阅读完需:约 5 分钟

大小:863.83K时长:04:54
火山引擎夺得AIM2024大赛超分质量评估赛道冠军

近日,第 2024 届 ECCV 联合举办的 AIM Workshop 大赛公布比赛结果,在视频超分辨率质量评估赛道上,火山引擎多媒体实验室凭借基于大模型的画质评估算法获得冠军,技术能力达到行业领先水平。


参赛队伍

大赛背景

AIM (Advances in Image Manipulation) 2024 是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议 ECCV 上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。

视频超分辨率质量评估赛道比赛结果

近年来视频和图像超分辨率(SR)技术得到了广泛学术研究,同时在短视频业务服务端/客户端中有着广泛的应用,它能够显著提升用户的主观观看体验,提高内容的清晰度和视觉吸引力。为了评估不同超分辨率算法的主观画质提升效果,需要使用图像和视频质量评估指标。然而由于难以捕捉超分辨率引发的复杂多样的增强伪影,传统算法 PSNR 和 SSIM 以及其他基于深度学习的方法均被证明无法准确估计超分辨率图像的质量。因此,超分辨率质量评估与普通的图像和视频质量评估任务是有所不同的,本次竞赛旨在针对超分辨率进行专用评估指标的研究,推动这一领域的发展。


冠军算法介绍

超分辨率画质评估的主要挑战在于如何捕捉超分辨率画质算法处理后内容的画质变化因素,相比传统质量评估需要考虑更复杂多样化的处理算法带来伪影/涂抹/过锐等失真类型。由于有限的样本数量和数据集大小,端到端的训练方案无法达到理想效果,经过多轮方案验证,团队最终采用 Rich Quality-Aware Feature 算法方案架构,针对多样化的视觉内容和复杂的失真类型,利用空域模型微调,同时利用丰富离线视频特征库和图像特征库来增强模型的泛化能力。微调模型采用了预训练于 LSVQ 数据集的 Swin Transformer-B 作为主干网络来提取空域特征,离线视频特征库包含 SlowFast 时域特征和 Fast-VQA 时空联合特征;离线图像特征库提供了全面的帧级特征表示,其中 LIQE 包含质量感知、失真特定及场景特定的信息,而 Q-Align 则包含来自多模态模型(MLLM)的强大质量感知特征。最终将可学习和不可学习的特征拼接在一起,经非线性回归层得到预测分数,最终分数通过 Sigmoid 函数转换为 [0-1] 范围。


除了算法层面的综合分析设计和数据增广处理等,团队对数据集进行深入的分析理解,数据集根据失真的难度分为 Easy/Moderate 和 Hard 三种难度,Hard 难度包含了目前大多数评估指标无法解决的失真类型,从训练集的主观评分分布我们也观察到困难组的视频主观评分相比简单组和中等组更难区分,为了增强泛化能力防止算法模型在 easy 数据集出现过拟合的问题,除了 PLCC 损失外,我们还应用了成对排序的 hinge 损失来引导模型区分困难样本,同时快速学习简单样本。训练损失函数为:

其中排序边距设为 0.05。我们在 8 块 A100-SXM-80GB GPU 上进行了 100 个 epoch 的训练,学习率为 1e-5,批次大小为 16。我们随机选取了 80% 的视频作为训练数据,20% 的视频用于验证,并选择在验证集中表现最佳的模型进行最终测试。


最终团队在 private 数据集获得最好的效果,通过 public 和 private 两部分内容的稳定发挥获得第一名的成绩。

总结

火山引擎多媒体实验室在视频超分质量评估领域实现了突破性的进展,并获得了该赛道冠军。增强处理算法质量评估算法的沉淀积累可以帮助处理算法和应用策略的迭代优化,从而更高效地给用户提供更为清晰主观视觉体验,有助于推动数字媒体行业向着更加智能化、高效化的方向发展。


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长

2024-10-31 10:388865
用户头像

发布了 31 篇内容, 共 31.4 次阅读, 收获喜欢 21 次。

关注

评论 1 条评论

发布
用户头像
路过....
2024-11-29 14:51 · 北京
回复
没有更多了
发现更多内容

NumPy用户手册

安信无限

Numpy 科学计算

Tether抵制欧盟监管的背后逻辑:MiCA 法规的硬伤在哪

TechubNews

加密市场

Web3钱包开发:一文带你弄清楚Web3钱包到底是什么?

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

Higress MCP Server 安全再升级:API 认证为 AI 连接保驾护航

阿里巴巴云原生

阿里云 云原生 Higress

开发一个交易所大概需要多少成本

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

塑造未来财务规划的优先级框架和主要见解

智达方通

企业管理 全面预算管理 财务规划 滚动预测

公链开发全生态:技术架构、生态构建与未来图景

区块链软件开发推广运营

交易所开发 dapp开发 公链开发 代币开发 dapp开发链游开发

SpringBoot性能优化的12个小技巧

秃头小帅oi

你们的高防IP为啥这么贵?

网络安全服务

CDN 服务器 带宽 高防IP DDoS 攻击

Redis 当中 Jedis 的详细刨析与使用

量贩潮汐·WholesaleTide

数据库 redis

揭秘 Databend:引领云原生存算分离架构的创新实践

Databend

尾款拿不到,真正的问题不是留不留后门!

程序员郭顺发

日志采集 Agent 性能大比拼——LoongCollector 性能深度测评

阿里巴巴云原生

阿里云 云原生 可观测

阿里云邀请您参加 2025 中国 Serverless 用户调查

阿里巴巴云原生

阿里云 Serverless 云原生

深度实操:京东商品详情API接入全流程与技术要点剖析

tbapi

京东API 京东商品详情API 京东数据采集

区块链DApp的开发技术方案

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

利用DeepSeek与Python自动生成测试用例!

电子尖叫食人鱼

Python DeepSeek

Java的SPI机制详解

京东科技开发者

(在线编辑DWG)Web Cad 二开实现粗糙度标注的方法

WEB CAD SDK

在线办公 在线设计 cad WEB CAD

AI赋能教与学,南京财经大学刘培学老师讲述课程改革的完整路径

ModelWhale

人工智能教育 南京财经大学 课程改革

鸿蒙 Ads Kit(广告服务)开发指南:流量变现与广告接入实践

哭着来笑着走天涯

鸿蒙 HarmonyOS 广告sdk HarmonyOS NEXT

客户案例| DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”

阿里云大数据AI技术

人工智能 云计算 数据分析 #大数据 Dataworks

在零售技术做AI的95后:我们这样搞定技术难题

京东科技开发者

Disruptor—并发编程相关简介

不在线第一只蜗牛

Java

简述大前端技术栈的网络原理

京东科技开发者

AI技术在英语口语学习中的应用

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI技术应用

深度剖析:AI Agent 落地困境,如何破局重生?

Techinsight

使用avPlayer和xComponent进行视频播放

音视频技术 鸿蒙app开发 鸿蒙生态

可视化开发引擎 iVX:重构数字化转型的新范式

代码制造者

博睿数据亮相2025深圳IT领袖大会暨深港澳CIO夏季论坛!端到端可观测方案赋能各行业数智化转型

博睿数据

2025 年超实用 AI 工具大盘点,你用过几个?

Techinsight

火山引擎夺得AIM2024大赛超分质量评估赛道冠军_字节跳动_火山引擎_InfoQ精选文章