写点什么

火山引擎夺得 AIM2024 大赛视频显著性预测赛道冠军

  • 2024-10-31
    北京
  • 本文字数:1793 字

    阅读完需:约 6 分钟

大小:949.47K时长:05:24
火山引擎夺得AIM2024大赛视频显著性预测赛道冠军

近日,第 2024 届 ECCV 联合举办的 AIM Workshop 大赛公布比赛结果,在视频显著性预测赛道上,火山引擎多媒体实验室凭借自研的显著性检测算法获得冠军,技术能力达到行业领先水平。


参赛队伍

大赛背景


AIM (Advances in Image Manipulation) 2024 是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议 ECCV 上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像分析、增强和恢复的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。


显著性预测任务旨在模拟人类视觉系统,预测图片/视频中人眼关注的区域,为下游各类计算机视觉任务提供引导和辅助信息。视频显著性预测赛道要求参赛者基于 1500 个视频 87w 帧共超过 4000 名用户的眼动追踪数据进行模型训练和验证,视频内容来自 youtube 和 vimeo 等网站,内容上涵盖了 PGC 长视频片段/UGC 短视频,语义上包含了游戏、动画、运动、vlog、电视节目等多个场景。最终排名由模型在验证集上的 AUC_J、CC、SIM、NSS 四项指标单项排名来加权得到,自研方案四项指标排名均取得第一,性能全面领先其他队伍方案。


视频显著性预测赛道结果


冠军算法介绍

显著性预测任务面临的主要挑战:

  • 眼动数据标注成本高,开源数据集规模有限,无法进行充分的预训练,因而容易导致模型鲁棒性不足。

  • 人眼的运动和聚焦既受到颜色、对比度等底层图像信号的刺激,也受到大脑感知系统对于场景的理解和推导的影响,因此对于语义复杂的场景,显著性预测难度大大增加

  • 随着观看时间的推移,显著区域会产生迁移,并具有一定延时性,需要对其时域特征进行良好的建模


此前方案大部分使用了基于 image 的骨干网络来进行特征提取,时域建模使用 LSTM/GRU 或者 3D 卷积来进行。团队沿用了 encoder-decoder 架构,整体结构如下图,输入一组 RGB 视频帧,最终输出显著性图谱。显著性图谱以灰度图表示,像素范围 0-255,数值越高代表显著性程度越高。其中,特征编码器为视觉编码器提取视频序列的多层级特征。特征解码器包含特征上采样模块、时序注意力模块、3D 卷积、上采样、2D 卷积、Sigmoid 等模块。



编码器的选择上,选取了针对 video 的视频基础模型 UMT(Unmasked Teacher)来作为 encoder,其网络使用预训练的 vision Transformer (ViT)。通过分别提取 ViT 不同块的输出(第 5,11,17,23),可得到不同层级的视频特征,这些特征包含丰富的底层细节和高层语义信息,同时也建模了视频不同帧间的时序关系。


解码器的设计上,采用了类似 U-Net 的分层上采样结构,在使用 3D 卷积对编码器特征进行时域降维的同时,进行不同尺度的空域上采样,并将不同层级的特征进行融合。此外,团队引入了时序注意力模块,以应对显著性的时域延迟和场景切换问题。这种设计不仅提升了模型对视频内容的理解能力,也为捕捉动态变化提供了有效支持。

数据处理方面,采用了基于视频内容的 train/val 划分策略,根据内容特性对数据集进行分组,然后按比例从每个组采样数据来组成最终的训练集。考虑到 UMT 的输入分辨率较小(224x224),对标签中的注视点信息进行了膨胀处理(dilate),减少其在下采样过程中的信息丢失,同时清除了离群点以加快收敛速度。

训练策略方面,通过 SIM 指标将数据划分为简单样本和困难样本,通过增加模型在困难样本上的损失权重,模型得以更加关注那些在训练过程中表现不佳的样本,有效提升了模型的整体性能和泛化能力。


总结

火山引擎多媒体实验室在视频显著性预测领域实现了突破性的进展,并获得了该赛道冠军。显著性预测技术的迭代升级可以帮助技术人员更为准确地预测用户观看行为,为用户观看体验的优化提供重要指引,也有助于推动视频行业向着更加智能化、高效化的方向发展。基于显著性预测的 ROI 编码和 ROI 区域增强方案已广泛应用于直播、点播及图片等内部业务场景,并通过火山引擎相关产品面向企业开放。


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

2024-10-31 16:228717

评论

发布
暂无评论
发现更多内容

如何打造高效、安全、协同的指标管理体系?袋鼠云是这样做的

袋鼠云数栈

大数据 指标体系 指标管理 指标中台 指标建设

观测云:多云监控的高效解决方案

可观测技术

苏州企业如何通过IT外包实现降本增效?苏州IT外包案例分享

苏州服务器托管

IT外包公司 IT外包服务

开山网商品详情数据接口(K3.item_get)丨开山网API接口

tbapi

开山网 开山网商品详情接口 开山网 API接口

deepin 社区月报 | 2024年6月,deepin V23 RC2发布,还有多款应用更新!

nn-30

Linux 开源 操作系统 社区 deepin

小智常见报表示例--层次坐标--交叉表累计报表

小智数据

自定义报表打印控件 小智开源报表 交叉表累计报表 小智BI 小智报表常见示例

蓝亚盒子迁移上云,华为云助力开启元宇宙直播电商新纪元

华为云开发者联盟

云原生 华为云 元宇宙 华为云开发者联盟

小智常见报表示例--层次坐标--逐层平均值报表

小智数据

类excel报表 自定义报表控件 报表批量打印 小智开源报表

小智常见报表示例--层次坐标--循环引用报表

小智数据

报表批量打印 自定义打印控件 小智开源报表

2024年苏州服务器托管有哪些机房选择?IDC选择方案

苏州服务器托管

数据中心 服务器托管

最全数据识别标准汇编,你应该需要!(附下载)

极盾科技

数据安全

实践分享:小程序插件引入详细教程

FN0

小程序 小程序化

小智常见报表示例--层次坐标--跨层累计报表

小智数据

小智报表 小智开源报表 跨层累计报表 小智常见报表示例

小智常见报表示例--层次坐标--分组排名报表

小智数据

报表批量打印 自定义打印控件 报表打印 小智开源报表工具 分组排名报表

哪些基于 LLMs 的产品值得开发?从用户体验和市场接受度的角度探讨

Baihai IDP

产品 AI 白海科技 企业号 7 月 PK 榜 GenAI

deepin V23成功适配奕斯伟计算EIC7700X,RISC-V桌面生态发展再提速

nn-30

Linux 开源 操作系统 risc-v deepin

软件测试学习笔记丨Web浏览器控制

测试人

软件测试

淘宝/天猫商品详情API接口与电商数据质量管理的结合应用

技术冰糖葫芦

API API 编排 API 文档 API 协议

快速明白高校采购云管平台4大必要性

行云管家

云计算 云服务 高校 云管平台

详解 Apifox:批量添加接口请求 Body 参数的方法

Apifox

程序员 前端 后端 API body

小智常见报表示例--层次坐标--组内占比报表

小智数据

自定义报表控件 小智开源报表 小智BI 报表打印 组内占比报表

拼多多商品详情数据接口全解析:获取商品信息的高效途径

tbapi

拼多多 拼多多API接口 拼多多商品详情数据接口

解决多源异构数据整合难题"良策“,助企业高效管理数据资产

Aloudata

数据管理 Data Fabric 多源异构

你喜欢刚刚公布的Scrum联盟系列认证新徽章吗?

ShineScrum

观测云:数据驱动决策的智能分析平台

可观测技术

小智常见报表示例--层次坐标--条件汇总报表

小智数据

自定义报表打印控件 报表批量打印 小智开源报表工具

苏宁商品详情数据接口(suning.item_get)丨苏宁API接口

tbapi

苏宁API 苏宁商品详情接口

【YashanDB知识库】virt虚拟内存远大于res内存问题分析

YashanDB

yashandb 崖山数据库 崖山DB

Aloudata 入选 Gartner 中国代表性数据基础设施供应商列表

Aloudata

数据 Gartner 数据管理 数据基础设施

火山引擎夺得AIM2024大赛视频显著性预测赛道冠军_字节跳动_火山引擎_InfoQ精选文章