写点什么

火山引擎联合中国科学技术大学 IMCL 团队夺得 NTIRE 大赛盲压缩图像增强赛道冠军

火山引擎多媒体实验室

  • 2024-07-10
    北京
  • 本文字数:1406 字

    阅读完需:约 5 分钟

火山引擎联合中国科学技术大学IMCL团队夺得NTIRE大赛盲压缩图像增强赛道冠军

近日,第 2024 届 CVPR Workshop 下属的 NTIRE 大赛公布比赛结果,在盲压缩图像增强赛道,火山引擎多媒体实验室联合中国科学技术大学智能媒体计算实验室(IMCL)团队自主研发的算法获得了冠军,技术能力达到行业领先水平。


图:参赛队伍

大赛背景


NTIRE(New Trends in Image Restoration and Enhancement)是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议 CVPR(CCF-A)上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。


图:盲压缩图像增强比赛结果


随着数字图像和视频内容的快速增长,有损图像压缩技术,作为降低图像传输带宽和存储开销的必要技术,早已在各种工业应用中普及。在流行的压缩编解码器中,考虑到计算效率和复杂度,在实际应用中,JPEG 备受青睐。然而,在受限码率下,JPEG 压缩后图像往往会带有复杂压缩失真,且较难获取压缩等级。在这个背景下,盲压缩图像增强竞赛应运而生,旨在实现任意等级 JPEG 压缩失真的恢复,提升真实场景中解码图像的画质,打破未知压缩失真对增强算法的限制。


冠军算法介绍


盲压缩图像恢复的主要挑战在于如何让网络感知到图像的压缩失真程度的同时,也能感知到图像的内容,从而达到修复的目的。在此次竞赛中,团队提出了一种巧妙利用动态提示(Dynamic Prompt)的盲图像恢复方法,名叫 PromptCIR。与之前直接估计压缩质量因素来进行指导的方法不同,PromptCIR 通过提示组件之间的动态组合以及从失真图像特征生成的提示权重隐式地学习编码压缩信息,从而为盲恢复提供更多的失真自适应能力。


值得一提的是,大多数现有的基于提示学习的压缩图像恢复方法将提示大小设置为与图像特征大小相同,限制了对各种输入大小的泛化能力。为了缓解这个问题,我们采用了内容感知的动态提示。具体来说,我们将提示大小设置为 1 x 1,并生成与图像特征相同分辨率的空间位置感知的提示权重,以避免过度适应训练图像大小的潜在问题。此外,为了提高内容感知和失真感知表征能力,我们使用多个提示基动态模版编码任务自适应信息,从而自适应地编码压缩质量信息,并保留必要的空间位置知识。


不仅是算法上的改进,团队还重新审视了其他辅助技术,如数据增强、数据合成等,以减少过拟合和数据偏差,最终超过其他竞争对手,获得第一名的成绩。


PromptCIR 方法图


论文链接:https://arxiv.org/pdf/2404.17433


总结


火山引擎多媒体实验室联合中国科学技术大学智能媒体计算实验室(IMCL)团队在盲压缩图像恢复领域实现了突破性的进展,并获得了该赛道冠军。自研的技术方案可以帮助修复成千上万的被压缩数字图像内容,从而给用户提供更为清晰、精细的图像展现效果,有助于推动数字媒体行业向着更加智能化、高效化的方向发展。


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

2024-07-10 14:523624
用户头像
鲁冬雪 InfoQ 策划主编

发布了 356 篇内容, 共 233.5 次阅读, 收获喜欢 289 次。

关注

评论

发布
暂无评论

基于Caffe ResNet-50网络实现图片分类(视频解码+同步推理)

x

阿里云弹性容器实例(ECI):无服务器容器解决方案深度解析

Geek_2d6073

如何选择适合您需求的 CDN 服务商

Geek_2d6073

哈啰集团全面接入通义灵码,AI 生成代码占比 20%,研发提效 12%

阿里云云效

阿里云 云原生 通义灵码

样例体验一之图片解码缩放与同步推理

x

第56期 | GPTSecurity周报

云起无垠

自动化技术如何影响企业数据分析的发展

智达方通

数据分析 自动化 财务管理 财务规划

七牛云 Miku 快直播,陪你一起看球!

七牛云

黑产当前,如何识别异常图片?

七牛云

软件测试学习笔记丨JUnit5执行顺序

测试人

软件测试

REST API 设计:HTTP 请求参数的最佳实践指南

Apifox

程序员 前端 HTTP API REST API

VMware ESXi 8.0U2c macOS Unlocker & OEM BIOS Huawei (华为) FusionServer 定制版

sysin

macos 华为 esxi OEM BIOS

VMware ESXi 8.0U2c macOS Unlocker & OEM BIOS xFusion (超聚变) FusionServer 定制版

sysin

macos esxi 超聚变 OEM BIOS

CANN版本升级及Add算子调试

x

Sinh算子kernel直调实现

x

万界星空科技MES系统中的仓库管理功能

万界星空科技

mes 万界星空科技 出入库管理 扫码出入库 仓库管理

心大陆AI大模型入选IDC“中国生成式AI市场图谱”

心大陆多智能体

人工智能 AI 大模型 心理健康 数字心理

哈啰集团全面接入通义灵码,AI 生成代码占比 20%,研发提效 12%

阿里巴巴云原生

阿里云 云原生 通义灵码 哈啰

在Mac上配置和使用HDC工具的指南

彭康佳

鸿蒙 hdc

CANN8.0安装踩坑记

x

JDK8升级JDK11最全实践干货来了

京东科技开发者

ScreenFocus for mac(mac多屏工作专注效率工具)v1.1.1(26)版

Mac相关知识分享

Mac软件 Mac办公软件

代币开发衍生生态:从DApp到链游,NFT,DeFi和交易所的全面解析

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

Databend 开源周报第 150 期

Databend

IPQ5332 vs IPQ4019: Upgrading to WiFi 7 or Staying with WiFi 5?

wallyslilly

IPQ5332 ipq5322

初始昇腾CANN

x

昇腾

JDK11升级JDK17最全实践干货来了

京东科技开发者

『手撕Vue-CLI』 添加自定义指令

EquatorCoco

JavaScript Vue 前端

什么是生产报工系统、有哪些优势

万界星空科技

绩效管理 mes 万界星空科技 报工系统 生产报工管理

AR | 我们从技术说起

AR玩家

AR Rokid Vision pro 炬目AR 炬目科技

火山引擎联合中国科学技术大学IMCL团队夺得NTIRE大赛盲压缩图像增强赛道冠军_字节跳动_InfoQ精选文章