开工福利|免费学 2200+ 精品线上课,企业成员人人可得! 了解详情
写点什么

火山引擎夺得 AIM2024 大赛视频显著性预测赛道冠军

  • 2024-10-31
    北京
  • 本文字数:1793 字

    阅读完需:约 6 分钟

大小:949.47K时长:05:24
火山引擎夺得AIM2024大赛视频显著性预测赛道冠军

近日,第 2024 届 ECCV 联合举办的 AIM Workshop 大赛公布比赛结果,在视频显著性预测赛道上,火山引擎多媒体实验室凭借自研的显著性检测算法获得冠军,技术能力达到行业领先水平。


参赛队伍

大赛背景


AIM (Advances in Image Manipulation) 2024 是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议 ECCV 上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像分析、增强和恢复的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。


显著性预测任务旨在模拟人类视觉系统,预测图片/视频中人眼关注的区域,为下游各类计算机视觉任务提供引导和辅助信息。视频显著性预测赛道要求参赛者基于 1500 个视频 87w 帧共超过 4000 名用户的眼动追踪数据进行模型训练和验证,视频内容来自 youtube 和 vimeo 等网站,内容上涵盖了 PGC 长视频片段/UGC 短视频,语义上包含了游戏、动画、运动、vlog、电视节目等多个场景。最终排名由模型在验证集上的 AUC_J、CC、SIM、NSS 四项指标单项排名来加权得到,自研方案四项指标排名均取得第一,性能全面领先其他队伍方案。


视频显著性预测赛道结果


冠军算法介绍

显著性预测任务面临的主要挑战:

  • 眼动数据标注成本高,开源数据集规模有限,无法进行充分的预训练,因而容易导致模型鲁棒性不足。

  • 人眼的运动和聚焦既受到颜色、对比度等底层图像信号的刺激,也受到大脑感知系统对于场景的理解和推导的影响,因此对于语义复杂的场景,显著性预测难度大大增加

  • 随着观看时间的推移,显著区域会产生迁移,并具有一定延时性,需要对其时域特征进行良好的建模


此前方案大部分使用了基于 image 的骨干网络来进行特征提取,时域建模使用 LSTM/GRU 或者 3D 卷积来进行。团队沿用了 encoder-decoder 架构,整体结构如下图,输入一组 RGB 视频帧,最终输出显著性图谱。显著性图谱以灰度图表示,像素范围 0-255,数值越高代表显著性程度越高。其中,特征编码器为视觉编码器提取视频序列的多层级特征。特征解码器包含特征上采样模块、时序注意力模块、3D 卷积、上采样、2D 卷积、Sigmoid 等模块。



编码器的选择上,选取了针对 video 的视频基础模型 UMT(Unmasked Teacher)来作为 encoder,其网络使用预训练的 vision Transformer (ViT)。通过分别提取 ViT 不同块的输出(第 5,11,17,23),可得到不同层级的视频特征,这些特征包含丰富的底层细节和高层语义信息,同时也建模了视频不同帧间的时序关系。


解码器的设计上,采用了类似 U-Net 的分层上采样结构,在使用 3D 卷积对编码器特征进行时域降维的同时,进行不同尺度的空域上采样,并将不同层级的特征进行融合。此外,团队引入了时序注意力模块,以应对显著性的时域延迟和场景切换问题。这种设计不仅提升了模型对视频内容的理解能力,也为捕捉动态变化提供了有效支持。

数据处理方面,采用了基于视频内容的 train/val 划分策略,根据内容特性对数据集进行分组,然后按比例从每个组采样数据来组成最终的训练集。考虑到 UMT 的输入分辨率较小(224x224),对标签中的注视点信息进行了膨胀处理(dilate),减少其在下采样过程中的信息丢失,同时清除了离群点以加快收敛速度。

训练策略方面,通过 SIM 指标将数据划分为简单样本和困难样本,通过增加模型在困难样本上的损失权重,模型得以更加关注那些在训练过程中表现不佳的样本,有效提升了模型的整体性能和泛化能力。


总结

火山引擎多媒体实验室在视频显著性预测领域实现了突破性的进展,并获得了该赛道冠军。显著性预测技术的迭代升级可以帮助技术人员更为准确地预测用户观看行为,为用户观看体验的优化提供重要指引,也有助于推动视频行业向着更加智能化、高效化的方向发展。基于显著性预测的 ROI 编码和 ROI 区域增强方案已广泛应用于直播、点播及图片等内部业务场景,并通过火山引擎相关产品面向企业开放。


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

2024-10-31 16:228536

评论

发布
暂无评论
发现更多内容

HarmonyOS属性动画开发示例(ArkTS)

HarmonyOS开发者

HarmonyOS

全国独家线下面授 | 上海大规模敏捷LeSS认证2024年3月14-16日开班

ShineScrum

人工智能 | 智能化升级:测试用例变更与新老版本Diff分析

测吧(北京)科技有限公司

测试

如何做好架构设计,架构设计有章可循吗?

不在线第一只蜗牛

架构 架构设计

引领Transformer时代的新型大模型架构

百度开发者中心

大模型 LLM

使用 Pinia 的五个技巧

高端章鱼哥

Pinia

ArcGraph 缓存的设计与应用实践丨技术解读

Fabarta

AI 图数据库 数据库缓存 AI基础设施

100天,3个版本,他们让营销AIGC起来了

脑极体

AI

大模型时代的智能运维与部署

百度开发者中心

人工智能 nlp 大模型 LLM

基于 Flink SQL 和 Paimon 构建流式湖仓新方案

阿里云大数据AI技术

软件测试/测试开发/人工智能丨从面试屡遭失败,到年薪28w

测试人

人工智能 软件测试

人工智能测试演进:测试覆盖度分析技术的巅峰

测吧(北京)科技有限公司

测试

让数据库运维审计安全无死角

尚思卓越

数据库 运维审计

BatchOutput PDF for Mac(PDF批量处理软件) 3.0.6永久激活版

mac

苹果mac Windows软件 BatchOutput PDF PDF批量处理软件

汇总 | 一文了解常用的 NFT 数据分析平台

NFT Research

NFT 数据分析平台 NFT\ NFTScan

2024第十二届成都国际智能驾驶技术展览会

AIOTE智博会

自动驾驶展 智能驾驶展

人工智能测试新篇章:有限状态机与知识图谱的融合

测吧(北京)科技有限公司

测试

全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性

汀丶人工智能

AI大语言模型 语义搜索系统 智能检索 self-rag

Adobe Premiere Pro Mac 2023中文破解版

iMac小白

赋能自然语言处理的强大模型

百度开发者中心

nlp 大模型

Authing 入选《 2023 年央国企信创应用与实践研究报告》优秀服务商

Authing

Idaas Authing 第一新声

“数字创新产品课程” 2024年1月20-21日 · CSPO认证周末班【提前报名特惠】CST导师亲授

ShineScrum

E往无前 | 日志成本下降25%+!腾讯云大数据ES Lucene压缩编码深度优化大揭秘

腾讯云大数据

ES

软件测试/测试开发/人工智能丨知识图谱实现精准测试效果

测试人

人工智能 软件测试

糟糕!试用期被裁了

王磊

Java

OpenHarmony之NAPI框架介绍

OpenHarmony开发者

Open Harmony

人工智能的历史演进:从专家系统到机器学习的蜕变

测吧(北京)科技有限公司

测试

软件测试 |人工智能在软件测试中的崭新应用

测吧(北京)科技有限公司

测试

人工智能 | 知识图谱引领精准测试:人工智能在软件测试的新风向

测吧(北京)科技有限公司

测试

火山引擎夺得AIM2024大赛视频显著性预测赛道冠军_字节跳动_火山引擎_InfoQ精选文章