写点什么

火山引擎联合中国科学技术大学 IMCL 团队夺得 NTIRE 大赛盲压缩图像增强赛道冠军

火山引擎多媒体实验室

  • 2024-07-10
    北京
  • 本文字数:1406 字

    阅读完需:约 5 分钟

火山引擎联合中国科学技术大学IMCL团队夺得NTIRE大赛盲压缩图像增强赛道冠军

近日,第 2024 届 CVPR Workshop 下属的 NTIRE 大赛公布比赛结果,在盲压缩图像增强赛道,火山引擎多媒体实验室联合中国科学技术大学智能媒体计算实验室(IMCL)团队自主研发的算法获得了冠军,技术能力达到行业领先水平。


图:参赛队伍

大赛背景


NTIRE(New Trends in Image Restoration and Enhancement)是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议 CVPR(CCF-A)上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。


图:盲压缩图像增强比赛结果


随着数字图像和视频内容的快速增长,有损图像压缩技术,作为降低图像传输带宽和存储开销的必要技术,早已在各种工业应用中普及。在流行的压缩编解码器中,考虑到计算效率和复杂度,在实际应用中,JPEG 备受青睐。然而,在受限码率下,JPEG 压缩后图像往往会带有复杂压缩失真,且较难获取压缩等级。在这个背景下,盲压缩图像增强竞赛应运而生,旨在实现任意等级 JPEG 压缩失真的恢复,提升真实场景中解码图像的画质,打破未知压缩失真对增强算法的限制。


冠军算法介绍


盲压缩图像恢复的主要挑战在于如何让网络感知到图像的压缩失真程度的同时,也能感知到图像的内容,从而达到修复的目的。在此次竞赛中,团队提出了一种巧妙利用动态提示(Dynamic Prompt)的盲图像恢复方法,名叫 PromptCIR。与之前直接估计压缩质量因素来进行指导的方法不同,PromptCIR 通过提示组件之间的动态组合以及从失真图像特征生成的提示权重隐式地学习编码压缩信息,从而为盲恢复提供更多的失真自适应能力。


值得一提的是,大多数现有的基于提示学习的压缩图像恢复方法将提示大小设置为与图像特征大小相同,限制了对各种输入大小的泛化能力。为了缓解这个问题,我们采用了内容感知的动态提示。具体来说,我们将提示大小设置为 1 x 1,并生成与图像特征相同分辨率的空间位置感知的提示权重,以避免过度适应训练图像大小的潜在问题。此外,为了提高内容感知和失真感知表征能力,我们使用多个提示基动态模版编码任务自适应信息,从而自适应地编码压缩质量信息,并保留必要的空间位置知识。


不仅是算法上的改进,团队还重新审视了其他辅助技术,如数据增强、数据合成等,以减少过拟合和数据偏差,最终超过其他竞争对手,获得第一名的成绩。


PromptCIR 方法图


论文链接:https://arxiv.org/pdf/2404.17433


总结


火山引擎多媒体实验室联合中国科学技术大学智能媒体计算实验室(IMCL)团队在盲压缩图像恢复领域实现了突破性的进展,并获得了该赛道冠军。自研的技术方案可以帮助修复成千上万的被压缩数字图像内容,从而给用户提供更为清晰、精细的图像展现效果,有助于推动数字媒体行业向着更加智能化、高效化的方向发展。


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

2024-07-10 14:524497
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 362 篇内容, 共 257.6 次阅读, 收获喜欢 293 次。

关注

评论

发布
暂无评论

字幕组时代落幕,翻译的未来可能是?

字节跳动技术团队

哲少荐书:鞋狗

Jackey

书籍推荐

阿里云大佬爆裂推荐“redis全新手册”,内容即精华

比伯

Java redis 程序员 架构 程序人生

如何 1 天快速集成自己的“Clubhouse”?

融云 RongCloud

音视频 clubhouse 语音社交 融云

什么是阻抗?

不脱发的程序猿

阻抗 电路设计 电子元器件

Elasticsearch mapping 复杂数据类型

escray

elastic 七日更 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

门诊数字化:患者信息识别方式

boshi

医疗 数字化基础 七日更

算法从有序数组中移除重复的数据,AI学习资源2020 John 易筋 ARTS 打卡 Week 38

John(易筋)

ARTS 打卡计划 ai youbute学习资源

山东党建系统!组织部智慧管理平台搭建

源中瑞-龙先生

智慧党建 组织部 山东

LeetCode题解:1091. 二进制矩阵中的最短路径,BFS,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

华为云FusionInsight MRS在金融行业存算分离的实践

华为云开发者联盟

大数据 金融 华为云 存算分离 FusionInsight MRS

14. Python 与数据库那点事儿,滚雪球学 Python

梦想橡皮擦

python 爬虫 2月春节不断更

心理声学基础

行者AI

心理 音乐

技术实践 | 新思路!解决线上系统异常问题

百度开发者中心

【函数计算实践】nodejs初探示例——本地mac环境

程序员架构进阶

架构 nodejs 函数计算 七日更 2月春节不断更

端口隔离和VLAN的区别

话题讨论 | 如何使用“网站SEO”,让网站排在最前面?

我是哪吒

大前端 后端 话题讨论 SEO 2月春节不断更

面试的季节到了,老哥确定不来复习下数据结构吗

Silently9527

面试 数据结构与算法

日记 2021年2月18日(周四)

Changing Lin

2月春节不断更

Java中多线程启动,为什么调用的是start方法,而不是run方法?

Java 编程 架构

3.Fiber(我是在内存中的dom)

全栈潇晨

React React Hooks react源码

【LeetCode】重塑矩阵Java题解

Albert

算法 LeetCode 2月春节不断更

用例文档

三生赤水

ElasticSearch.04 - 基础操作

insight

elasticsearch 2月春节不断更

区块链挖矿系统APP开发|区块链挖矿软件开发(现成)

v16629866266

一维数组的动态和

小马哥

算法

第 4 周作业

老元宵

【STM32】EXTI---外部中断/事件控制器

AXYZdong

硬件 stm32 2月春节不断更

厉害了!这群95后正在用三维成像技术让科幻变成现实

华为云开发者联盟

视频 华为云 三维 裸眼 光学

2021新年最新分享:阿里Java岗5轮技术面经整理

比伯

Java 编程 架构 面试 程序人生

新闻|2021 FOSDEM为期两天的活动成功举办,一大波学习资源来袭!

PostgreSQLChina

数据库 postgresql 软件 开源社区

火山引擎联合中国科学技术大学IMCL团队夺得NTIRE大赛盲压缩图像增强赛道冠军_字节跳动_InfoQ精选文章