写点什么

火山引擎国际深度学习图像压缩挑战赛蝉联冠军

火山引擎多媒体实验室

  • 2024-03-29
    北京
  • 本文字数:1567 字

    阅读完需:约 5 分钟

火山引擎国际深度学习图像压缩挑战赛蝉联冠军

近日,第六届深度学习图像压缩挑战赛(以下将简称“CLIC 大赛”)比赛结果公布,由火山引擎多媒体实验室与北大组成的联合参赛平台 b-2 在高码率视频压缩低码率视频压缩两个赛道均夺得主客观指标冠军。这也是火山引擎多媒体实验室连续两届蝉联该赛道冠军。




CLIC 大赛由电气与电子工程师协会 IEEE 主办,从诞生开始就获得了学术界与工业界的广泛关注。2023 年 CLIC 大赛暂停一届,本届大赛依托于数据压缩领域的顶级会议 Data Compression Conference (DCC)再次举办。值得一提的是,本届 DCC 中,火山引擎多媒体实验室有 8 篇论文入选。


随着以深度学习为代表的新一代人工智能技术不断取得突破,学术界与工业界逐渐意识到人工智能技术在图像、视频压缩领域的巨大应用潜力。基于深度学习的图像视频压缩技术被视为超越传统压缩技术能力极限,取得突破性进展的明日之星。基于深度学习技术,火山引擎和北大 b-2 平台提出了一项智能混合解决方案。

基于深度学习的智能混合解决方案


b-2 平台在充分理解传统压缩技术与深度学习压缩技术的各自原理的基础上,发挥两种技术路线的各自优势,取长补短,将二者有机融合成为一个整体,形成了独具特色的传统——智能混合解决方案。传统编码模块在业界已有传统编码框架基础上,加入了非对称四叉树划分等创新技术。智能编码模块则引入了基于深度学习的环路滤波等技术。


图 1 非对称四叉树划分结构;(a)H1 型水平 UQT,(b)H2 型水平 UQT,(c)V1 型垂直 UQT,(d)V2 型垂直 UQT。

编码单元划分是混合视频编码框架的基础,决定着编码单元的基本形状和尺寸。灵活的划分方法能更有效地表达视频丰富的纹理和运动,对编码性能的提升起着至关重要的作用。团队提出了非对称四叉树 (UQT) 划分结构,旨在提高视频的编码效率。与现有的四叉树(Quad Tree, QT),二叉树(Binary Tree, BT),三叉树(Ternary Tree, TT)划分结构相比,UQT 通过一次划分生成的子编码单元能触及更深的划分深度,能更有效地捕捉视频丰富的细节特性。此外,UQT 生成的子块形状是无法通过 QT 、BT、TT 组合实现的,一定程度上弥补了现有划分的不足,丰富了划分的表达。



图 2 环路滤波网络结构示意图,包括网络的输入,滤波与输出模块


传统视频编码中采用环路滤波器去除编码失真,缩小原始图像与重建之间的失真,例如经典的去块滤波、样本自适应偏移和自适应环路滤波等。参赛平台提出了一种基于残差卷积网络的增强型环路滤波技术,有机地将环路滤波技术与深度学习技术结合在一起,在网络结构中与模型训练中充分利用传统视频编码的先验信息,提升环路滤波效率。网络输入方面,除重建像素外,团队将编码过程中的预测信息、划分信息、边界强度以及量化参数等作为增强信息供深度网络学习,丰富先验知识,使得网络能更好地感知压缩失真。在分层参考的编码结构中,待编码帧将参考已重建的高质量帧。团队提出对不同时域层次帧所使用的滤波器采用迭代训练的方式,获取最接近真实编码的训练数据,实现更高性能的滤波。此外,每个条带及最大编码单位均可以在多个滤波模型中自适应地选择率失真性能最优的网络模型,并将选择信息传输到解码端。


图 3 CLIC 视频压缩赛道基于 MOS 的排行榜


2022 年,火山引擎多媒体实验室第一次参加 CLIC 大赛。参赛平台 Neutron Star(中子星)在高码率视频压缩低码率视频压缩两个赛道,主客观指标均以大幅领先优势夺冠。


此次,火山引擎与北大联手夺冠,是结合了北大学科和人才优势,以及火山引擎的技术和产业优势,围绕深度学习在视频压缩领域的一次重要学术探索。


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


2024-03-29 11:274056
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 363 篇内容, 共 279.1 次阅读, 收获喜欢 298 次。

关注

评论

发布
暂无评论
发现更多内容

react源码解析17.context

全栈潇晨

React

spring boot 自动装配原理详解

公众号:程序猿成神之路

Spring Boot

以资源为中心的计算机和现实分析

型火🔥

架构 分布式 操作系统 资源

☕【JVM技术探索】各种类型对象占用内存情况分析(下)

洛神灬殇

JVM 6月日更 对象大小 对象计算

深入了解Spring之上下文

邱学喆

ApplicationContext LifecycleProccesor 事件传播者 ApplicationListener

算法之寻找二叉树结点的最近公共祖先

Skysper

算法

在线时间戳格式化转换工具【推荐】

入门小站

工具

Gson的快速使用

卢卡多多

json Gson 6月日更

【Vue2.x 源码学习】第二十一篇 - 依赖收集的过程分析

Brave

源码 vue2 6月日更

算法:八皇后问题

看山

面试 算法 6月日更

校友会小程序开发笔记十一: 后台管理系统功能设计与实现

CC同学

校友录小程序 同学录小程序

推荐算法团队介绍(十四)

Databri_AI

机器学习 算法 团队 推荐系统

“云边+端”三管齐下,“有蓉”数据库助力四川气象进入天擎时代

脑极体

Kubernetes手记(18)- 高级调度策略

雪雷

k8s 6月日更

你会写注释吗?

看山

Java 6月日更

Linux之rm命令

入门小站

Linux

计算机性能测试

若尘

计算机组成原理 6月日更

爱了,天猫“618”亿级高并发设计实战手册,限时分享

Java架构师迁哥

数据库在各行各业的应用实践

xcbeyond

数据库 最佳实践 6月日更

深入了解Spring之事件机制

邱学喆

观察者模式 spring的事件机制 EventListener注解

浅析Angular数据状态管理框架:NgRx/Store

devpoint

angular.js angular store 6月日更

Python线性预测

Qien Z.

6月日更 线性预测

浪潮云说丨构建实时监控能力,提升应用质效

云计算

JavaScript 学习(七)

空城机

JavaScript 大前端 6月日更

App 上架包预检

魅影

ios Node 代码扫描 脚本 应用审核

HarmonyOS学习路之开发篇——Intent

爱吃土豆丝的打工人

HarmonyOS Ability intent 页面跳转

打造一个通用、可配置、多句柄的数据上报 SDK

魅影

sqlite 数据库 APM 多线程 数据上报

校友会小程序开发笔记九: 校友群助手功能模块设计与实现

CC同学

校友会小程序 同学录小程序

Windows11要来啦!!!

学神来啦

win10 win11

【21-14】singularity介绍

耳东@Erdong

6月日更 singularity

校友会小程序开发笔记十: 校友资讯功能模块设计与实现

CC同学

校友录小程序 同学录小程序

火山引擎国际深度学习图像压缩挑战赛蝉联冠军_音视频(后端)_字节跳动技术团队_InfoQ精选文章