写点什么

火山引擎国际深度学习图像压缩挑战赛蝉联冠军

火山引擎多媒体实验室

  • 2024-03-29
    北京
  • 本文字数:1567 字

    阅读完需:约 5 分钟

火山引擎国际深度学习图像压缩挑战赛蝉联冠军

近日,第六届深度学习图像压缩挑战赛(以下将简称“CLIC 大赛”)比赛结果公布,由火山引擎多媒体实验室与北大组成的联合参赛平台 b-2 在高码率视频压缩低码率视频压缩两个赛道均夺得主客观指标冠军。这也是火山引擎多媒体实验室连续两届蝉联该赛道冠军。




CLIC 大赛由电气与电子工程师协会 IEEE 主办,从诞生开始就获得了学术界与工业界的广泛关注。2023 年 CLIC 大赛暂停一届,本届大赛依托于数据压缩领域的顶级会议 Data Compression Conference (DCC)再次举办。值得一提的是,本届 DCC 中,火山引擎多媒体实验室有 8 篇论文入选。


随着以深度学习为代表的新一代人工智能技术不断取得突破,学术界与工业界逐渐意识到人工智能技术在图像、视频压缩领域的巨大应用潜力。基于深度学习的图像视频压缩技术被视为超越传统压缩技术能力极限,取得突破性进展的明日之星。基于深度学习技术,火山引擎和北大 b-2 平台提出了一项智能混合解决方案。

基于深度学习的智能混合解决方案


b-2 平台在充分理解传统压缩技术与深度学习压缩技术的各自原理的基础上,发挥两种技术路线的各自优势,取长补短,将二者有机融合成为一个整体,形成了独具特色的传统——智能混合解决方案。传统编码模块在业界已有传统编码框架基础上,加入了非对称四叉树划分等创新技术。智能编码模块则引入了基于深度学习的环路滤波等技术。


图 1 非对称四叉树划分结构;(a)H1 型水平 UQT,(b)H2 型水平 UQT,(c)V1 型垂直 UQT,(d)V2 型垂直 UQT。

编码单元划分是混合视频编码框架的基础,决定着编码单元的基本形状和尺寸。灵活的划分方法能更有效地表达视频丰富的纹理和运动,对编码性能的提升起着至关重要的作用。团队提出了非对称四叉树 (UQT) 划分结构,旨在提高视频的编码效率。与现有的四叉树(Quad Tree, QT),二叉树(Binary Tree, BT),三叉树(Ternary Tree, TT)划分结构相比,UQT 通过一次划分生成的子编码单元能触及更深的划分深度,能更有效地捕捉视频丰富的细节特性。此外,UQT 生成的子块形状是无法通过 QT 、BT、TT 组合实现的,一定程度上弥补了现有划分的不足,丰富了划分的表达。



图 2 环路滤波网络结构示意图,包括网络的输入,滤波与输出模块


传统视频编码中采用环路滤波器去除编码失真,缩小原始图像与重建之间的失真,例如经典的去块滤波、样本自适应偏移和自适应环路滤波等。参赛平台提出了一种基于残差卷积网络的增强型环路滤波技术,有机地将环路滤波技术与深度学习技术结合在一起,在网络结构中与模型训练中充分利用传统视频编码的先验信息,提升环路滤波效率。网络输入方面,除重建像素外,团队将编码过程中的预测信息、划分信息、边界强度以及量化参数等作为增强信息供深度网络学习,丰富先验知识,使得网络能更好地感知压缩失真。在分层参考的编码结构中,待编码帧将参考已重建的高质量帧。团队提出对不同时域层次帧所使用的滤波器采用迭代训练的方式,获取最接近真实编码的训练数据,实现更高性能的滤波。此外,每个条带及最大编码单位均可以在多个滤波模型中自适应地选择率失真性能最优的网络模型,并将选择信息传输到解码端。


图 3 CLIC 视频压缩赛道基于 MOS 的排行榜


2022 年,火山引擎多媒体实验室第一次参加 CLIC 大赛。参赛平台 Neutron Star(中子星)在高码率视频压缩低码率视频压缩两个赛道,主客观指标均以大幅领先优势夺冠。


此次,火山引擎与北大联手夺冠,是结合了北大学科和人才优势,以及火山引擎的技术和产业优势,围绕深度学习在视频压缩领域的一次重要学术探索。


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


2024-03-29 11:274348
用户头像
鲁冬雪 GMI Cloud Head of China Marketing

发布了 381 篇内容, 共 330.6 次阅读, 收获喜欢 304 次。

关注

评论

发布
暂无评论
发现更多内容

“AI 程序员入职系列”第二弹:如何利用通义灵码光速改写项目编程语言?

阿里云云效

阿里云 云原生

“AI 程序员入职系列”第二弹:如何利用通义灵码光速改写项目编程语言?

阿里巴巴云原生

阿里云 云原生

牛批!大三就冲进腾讯了!2024最新大厂面经

王中阳Go

面试 面试题 大厂面经 Java 面试题 go面试题

​下载量超 200 万,最近频繁登上热搜的 AI 程序员,大家怎么看

阿里云云效

阿里云 AI 云原生

NFTScan | 04.15~04.21 NFT 市场热点汇总

NFT Research

NFT\ NFTScan

软件测试学习笔记丨后端接口基本开发 - spring boot发送 POST请求

测试人

软件测试

高通将支持 Meta Llama 3 在骁龙终端运行;特斯拉中国全系车型降价 1.4 万元丨 RTE 开发者日报 Vol.189

RTE开发者社区

数栈+AI:数栈V6.2创新发布,让数据开发更智能

袋鼠云数栈

大数据 AI 信创 AI技术 大模型

直播回顾|6个实例带你解读TinyVue 组件库跨框架技术

OpenTiny社区

开源 Vue 前端 组件库

DAPP的商业模型创新: 探索可持续盈利路径

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

SD-WAN在国际教育机构中的应用

Ogcloud

SD-WAN 网络sdn 企业组网 SD-WAN组网 SD-WAN服务商

「杭州*康恩贝」4月26日PolarDB开源数据库沙龙,开启报名!

阿里云数据库开源

阿里云 技术交流 开源数据库 polarDB 康恩贝

万界星空科技工时管理系统功能介绍

万界星空科技

mes 工时管理 生产管理 车间管理 工时绩效

MES系统 DE 生产绩效功能及分析

万界星空科技

绩效管理 生产管理系统 mes 工时管理 生产绩效

回归测试的四个步骤

FunTester

Taylor Swift全新专辑上线华为音乐,谱写爱与诗歌音符

最新动态

华为Mate X5升级HarmonyOS 4.2 大屏互动超有趣

最新动态

软件测试学习笔记丨Selenium多窗口处理

测试人

软件测试 自动化测试 测试开发 selenium

系统架构基础知识入门指南-下

老张

系统架构 业务流 端到端 技术实践

OpenAI创始人Sam独家专访!GPT5升级时间确定!

蓉蓉

人工智能 openai ChatGPT

下载量超 200 万,最近频繁登上热搜的 AI 程序员,大家怎么看

阿里巴巴云原生

阿里云 云原生 通义灵码

SD-WAN为什么在亚太地区普及?

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

OpenTiny 亮相 W3C 2024春季顾问委员会会议,共话行业新趋势。

OpenTiny社区

开源 前端 Web

AIGC在设计中的应用实践

智在碧得

AI 设计 AIGC AIGC技术探索

区块链交易所技术开发架构解析 交易所开发团队

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

火山引擎国际深度学习图像压缩挑战赛蝉联冠军_音视频(后端)_字节跳动技术团队_InfoQ精选文章