近日,第 2024 届 CVPR Workshop 下属的 NTIRE 大赛公布比赛结果,在盲压缩图像增强赛道,火山引擎多媒体实验室联合中国科学技术大学智能媒体计算实验室(IMCL)团队自主研发的算法获得了冠军,技术能力达到行业领先水平。
图:参赛队伍
大赛背景
NTIRE(New Trends in Image Restoration and Enhancement)是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议 CVPR(CCF-A)上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。
图:盲压缩图像增强比赛结果
随着数字图像和视频内容的快速增长,有损图像压缩技术,作为降低图像传输带宽和存储开销的必要技术,早已在各种工业应用中普及。在流行的压缩编解码器中,考虑到计算效率和复杂度,在实际应用中,JPEG 备受青睐。然而,在受限码率下,JPEG 压缩后图像往往会带有复杂压缩失真,且较难获取压缩等级。在这个背景下,盲压缩图像增强竞赛应运而生,旨在实现任意等级 JPEG 压缩失真的恢复,提升真实场景中解码图像的画质,打破未知压缩失真对增强算法的限制。
冠军算法介绍
盲压缩图像恢复的主要挑战在于如何让网络感知到图像的压缩失真程度的同时,也能感知到图像的内容,从而达到修复的目的。在此次竞赛中,团队提出了一种巧妙利用动态提示(Dynamic Prompt)的盲图像恢复方法,名叫 PromptCIR。与之前直接估计压缩质量因素来进行指导的方法不同,PromptCIR 通过提示组件之间的动态组合以及从失真图像特征生成的提示权重隐式地学习编码压缩信息,从而为盲恢复提供更多的失真自适应能力。
值得一提的是,大多数现有的基于提示学习的压缩图像恢复方法将提示大小设置为与图像特征大小相同,限制了对各种输入大小的泛化能力。为了缓解这个问题,我们采用了内容感知的动态提示。具体来说,我们将提示大小设置为 1 x 1,并生成与图像特征相同分辨率的空间位置感知的提示权重,以避免过度适应训练图像大小的潜在问题。此外,为了提高内容感知和失真感知表征能力,我们使用多个提示基动态模版编码任务自适应信息,从而自适应地编码压缩质量信息,并保留必要的空间位置知识。
不仅是算法上的改进,团队还重新审视了其他辅助技术,如数据增强、数据合成等,以减少过拟合和数据偏差,最终超过其他竞争对手,获得第一名的成绩。
PromptCIR 方法图
论文链接:https://arxiv.org/pdf/2404.17433
总结
火山引擎多媒体实验室联合中国科学技术大学智能媒体计算实验室(IMCL)团队在盲压缩图像恢复领域实现了突破性的进展,并获得了该赛道冠军。自研的技术方案可以帮助修复成千上万的被压缩数字图像内容,从而给用户提供更为清晰、精细的图像展现效果,有助于推动数字媒体行业向着更加智能化、高效化的方向发展。
火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。
火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。
评论