写点什么

火山引擎国际深度学习图像压缩挑战赛蝉联冠军

火山引擎多媒体实验室

  • 2024-03-29
    北京
  • 本文字数:1567 字

    阅读完需:约 5 分钟

火山引擎国际深度学习图像压缩挑战赛蝉联冠军

近日,第六届深度学习图像压缩挑战赛(以下将简称“CLIC 大赛”)比赛结果公布,由火山引擎多媒体实验室与北大组成的联合参赛平台 b-2 在高码率视频压缩低码率视频压缩两个赛道均夺得主客观指标冠军。这也是火山引擎多媒体实验室连续两届蝉联该赛道冠军。




CLIC 大赛由电气与电子工程师协会 IEEE 主办,从诞生开始就获得了学术界与工业界的广泛关注。2023 年 CLIC 大赛暂停一届,本届大赛依托于数据压缩领域的顶级会议 Data Compression Conference (DCC)再次举办。值得一提的是,本届 DCC 中,火山引擎多媒体实验室有 8 篇论文入选。


随着以深度学习为代表的新一代人工智能技术不断取得突破,学术界与工业界逐渐意识到人工智能技术在图像、视频压缩领域的巨大应用潜力。基于深度学习的图像视频压缩技术被视为超越传统压缩技术能力极限,取得突破性进展的明日之星。基于深度学习技术,火山引擎和北大 b-2 平台提出了一项智能混合解决方案。

基于深度学习的智能混合解决方案


b-2 平台在充分理解传统压缩技术与深度学习压缩技术的各自原理的基础上,发挥两种技术路线的各自优势,取长补短,将二者有机融合成为一个整体,形成了独具特色的传统——智能混合解决方案。传统编码模块在业界已有传统编码框架基础上,加入了非对称四叉树划分等创新技术。智能编码模块则引入了基于深度学习的环路滤波等技术。


图 1 非对称四叉树划分结构;(a)H1 型水平 UQT,(b)H2 型水平 UQT,(c)V1 型垂直 UQT,(d)V2 型垂直 UQT。

编码单元划分是混合视频编码框架的基础,决定着编码单元的基本形状和尺寸。灵活的划分方法能更有效地表达视频丰富的纹理和运动,对编码性能的提升起着至关重要的作用。团队提出了非对称四叉树 (UQT) 划分结构,旨在提高视频的编码效率。与现有的四叉树(Quad Tree, QT),二叉树(Binary Tree, BT),三叉树(Ternary Tree, TT)划分结构相比,UQT 通过一次划分生成的子编码单元能触及更深的划分深度,能更有效地捕捉视频丰富的细节特性。此外,UQT 生成的子块形状是无法通过 QT 、BT、TT 组合实现的,一定程度上弥补了现有划分的不足,丰富了划分的表达。



图 2 环路滤波网络结构示意图,包括网络的输入,滤波与输出模块


传统视频编码中采用环路滤波器去除编码失真,缩小原始图像与重建之间的失真,例如经典的去块滤波、样本自适应偏移和自适应环路滤波等。参赛平台提出了一种基于残差卷积网络的增强型环路滤波技术,有机地将环路滤波技术与深度学习技术结合在一起,在网络结构中与模型训练中充分利用传统视频编码的先验信息,提升环路滤波效率。网络输入方面,除重建像素外,团队将编码过程中的预测信息、划分信息、边界强度以及量化参数等作为增强信息供深度网络学习,丰富先验知识,使得网络能更好地感知压缩失真。在分层参考的编码结构中,待编码帧将参考已重建的高质量帧。团队提出对不同时域层次帧所使用的滤波器采用迭代训练的方式,获取最接近真实编码的训练数据,实现更高性能的滤波。此外,每个条带及最大编码单位均可以在多个滤波模型中自适应地选择率失真性能最优的网络模型,并将选择信息传输到解码端。


图 3 CLIC 视频压缩赛道基于 MOS 的排行榜


2022 年,火山引擎多媒体实验室第一次参加 CLIC 大赛。参赛平台 Neutron Star(中子星)在高码率视频压缩低码率视频压缩两个赛道,主客观指标均以大幅领先优势夺冠。


此次,火山引擎与北大联手夺冠,是结合了北大学科和人才优势,以及火山引擎的技术和产业优势,围绕深度学习在视频压缩领域的一次重要学术探索。


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


2024-03-29 11:274396
用户头像
鲁冬雪 GMI Cloud Head of China Marketing

发布了 381 篇内容, 共 335.3 次阅读, 收获喜欢 305 次。

关注

评论

发布
暂无评论
发现更多内容

产品经理 学习路线

执于业务

事业-最佳实践-编码-代码质量标准

南山

代码质量 代码可读性 #可维护性 #可测试性 可复用性

找到A不存在于B的记录,not in, except ,not exists ,left join + is null 大比拼

TiDB 社区干货传送门

6.x 实践

一文概述TiDB中的索引类型

TiDB 社区干货传送门

管理与运维

TiDB VS MySQL 场景选择

TiDB 社区干货传送门

7.x 实践

事业-最佳实践-编码-保持代码简洁

南山

代码质量 KISS YAGNI 代码简洁

事业-最佳实践-编码-程序错误处理

南山

最佳实践 异常处理 程序错误

切换到tidb用户使用tiup命令出现bash: tiup: command not found

TiDB 社区干货传送门

管理与运维 7.x 实践

产品经理互怼放大招(god bless !Duel, Orcs)

执于业务

2024年DeFi的四大主导趋势:Restaking、Layer3、AI和DePin

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

惊喜!这一国产数据库认证考试限免了!

TiDB 社区干货传送门

社区活动

支付系统概述(三):资金网络

agnostic

支付系统设计与实现

企业架构设计原则之因素均衡性

凌晞

架构设计 架构设计原则 企业构架

京东jd.item_get API助力,一键获取商品详情,打造专业级购物体验

技术冰糖葫芦

API API 类型

事业-最佳实践-编码-源代码方法组织

南山

最佳实践 编码 代码组织

vben-admin 如何实现多语言

麦兜

2024 TiDB 社区 PCTA/PCTP/PCSD 免费考证(社区专场)机会来啦!想考证的 TiDBer 看过来!

TiDB 社区干货传送门

社区活动

TiDB 版本升级的小 Tips

TiDB 社区干货传送门

版本升级 集群管理 管理与运维 7.x 实践

再质押的Eigenlayer 现在参与来得及吗

币离海

EigenLayer

从金融行业典型案例中窥探TiDB到底有哪些优势

TiDB 社区干货传送门

数据库前沿趋势

物联网业务架构模式

执于业务

物联网架构

执于业务

教你快准狠上手基于 Dashboard 快速定位问题 SQL

TiDB 社区干货传送门

监控 实践案例 管理与运维 故障排查/诊断 7.x 实践

TiDB v8.0 组件 TiProxy 测试

TiDB 社区干货传送门

8.x 实践

TiDB 奇遇记

TiDB 社区干货传送门

学习&认证&课程

火山引擎国际深度学习图像压缩挑战赛蝉联冠军_音视频(后端)_字节跳动技术团队_InfoQ精选文章