AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

火山引擎国际深度学习图像压缩挑战赛蝉联冠军

火山引擎多媒体实验室

  • 2024-03-29
    北京
  • 本文字数:1567 字

    阅读完需:约 5 分钟

火山引擎国际深度学习图像压缩挑战赛蝉联冠军

近日,第六届深度学习图像压缩挑战赛(以下将简称“CLIC 大赛”)比赛结果公布,由火山引擎多媒体实验室与北大组成的联合参赛平台 b-2 在高码率视频压缩低码率视频压缩两个赛道均夺得主客观指标冠军。这也是火山引擎多媒体实验室连续两届蝉联该赛道冠军。




CLIC 大赛由电气与电子工程师协会 IEEE 主办,从诞生开始就获得了学术界与工业界的广泛关注。2023 年 CLIC 大赛暂停一届,本届大赛依托于数据压缩领域的顶级会议 Data Compression Conference (DCC)再次举办。值得一提的是,本届 DCC 中,火山引擎多媒体实验室有 8 篇论文入选。


随着以深度学习为代表的新一代人工智能技术不断取得突破,学术界与工业界逐渐意识到人工智能技术在图像、视频压缩领域的巨大应用潜力。基于深度学习的图像视频压缩技术被视为超越传统压缩技术能力极限,取得突破性进展的明日之星。基于深度学习技术,火山引擎和北大 b-2 平台提出了一项智能混合解决方案。

基于深度学习的智能混合解决方案


b-2 平台在充分理解传统压缩技术与深度学习压缩技术的各自原理的基础上,发挥两种技术路线的各自优势,取长补短,将二者有机融合成为一个整体,形成了独具特色的传统——智能混合解决方案。传统编码模块在业界已有传统编码框架基础上,加入了非对称四叉树划分等创新技术。智能编码模块则引入了基于深度学习的环路滤波等技术。


图 1 非对称四叉树划分结构;(a)H1 型水平 UQT,(b)H2 型水平 UQT,(c)V1 型垂直 UQT,(d)V2 型垂直 UQT。

编码单元划分是混合视频编码框架的基础,决定着编码单元的基本形状和尺寸。灵活的划分方法能更有效地表达视频丰富的纹理和运动,对编码性能的提升起着至关重要的作用。团队提出了非对称四叉树 (UQT) 划分结构,旨在提高视频的编码效率。与现有的四叉树(Quad Tree, QT),二叉树(Binary Tree, BT),三叉树(Ternary Tree, TT)划分结构相比,UQT 通过一次划分生成的子编码单元能触及更深的划分深度,能更有效地捕捉视频丰富的细节特性。此外,UQT 生成的子块形状是无法通过 QT 、BT、TT 组合实现的,一定程度上弥补了现有划分的不足,丰富了划分的表达。



图 2 环路滤波网络结构示意图,包括网络的输入,滤波与输出模块


传统视频编码中采用环路滤波器去除编码失真,缩小原始图像与重建之间的失真,例如经典的去块滤波、样本自适应偏移和自适应环路滤波等。参赛平台提出了一种基于残差卷积网络的增强型环路滤波技术,有机地将环路滤波技术与深度学习技术结合在一起,在网络结构中与模型训练中充分利用传统视频编码的先验信息,提升环路滤波效率。网络输入方面,除重建像素外,团队将编码过程中的预测信息、划分信息、边界强度以及量化参数等作为增强信息供深度网络学习,丰富先验知识,使得网络能更好地感知压缩失真。在分层参考的编码结构中,待编码帧将参考已重建的高质量帧。团队提出对不同时域层次帧所使用的滤波器采用迭代训练的方式,获取最接近真实编码的训练数据,实现更高性能的滤波。此外,每个条带及最大编码单位均可以在多个滤波模型中自适应地选择率失真性能最优的网络模型,并将选择信息传输到解码端。


图 3 CLIC 视频压缩赛道基于 MOS 的排行榜


2022 年,火山引擎多媒体实验室第一次参加 CLIC 大赛。参赛平台 Neutron Star(中子星)在高码率视频压缩低码率视频压缩两个赛道,主客观指标均以大幅领先优势夺冠。


此次,火山引擎与北大联手夺冠,是结合了北大学科和人才优势,以及火山引擎的技术和产业优势,围绕深度学习在视频压缩领域的一次重要学术探索。


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


2024-03-29 11:274181
用户头像
鲁冬雪 GMI Cloud Head of China Marketing

发布了 367 篇内容, 共 300.8 次阅读, 收获喜欢 301 次。

关注

评论

发布
暂无评论
发现更多内容

[Paper Reading]SWE-Bench: Can Language Models Resolve Real-World Github Issues?

吴京

benchmark agent LLM Coder

秒送LBS场景下的C端SOA服务容灾建设之-数据备份篇

京东科技开发者

Go语言中使用sqlx来操作事务

左诗右码

深入探索京东JD商品详情API返回值结构

技术冰糖葫芦

API Explorer平台 API Explorer API 接口 API 测试

【YashanDB知识库】YMP元数据阶段二报错YAS-04204

YashanDB

yashandb 崖山数据库 崖山DB

官宣定档!2025杭州安防展览会(浙江安博会)定于4月召开

AIOTE智博会

安博会 浙江安博会

金融行业实时湖仓建设实践与思考

镜舟科技

大数据 数据仓库 金融 StarRocks 湖仓

UE虚幻云渲染未来趋势与挑战分析

3DCAT实时渲染

实时云渲染 虚幻引擎云渲染 UE云渲染

Python如何用PyModbus库进行Modbus TCP通信

我再BUG界嘎嘎乱杀

Python 编程 后端 开发语言

豆瓣评分9.4!Python程序员必读的《流畅的Python》,放这里了!

我再BUG界嘎嘎乱杀

Python 编程 后端 开发语言

锁定PPT图片不被移动!2个PPT使用技巧分享!

职场工具箱

效率 职场 PPT 办公软件 效率软件

Java表达式引擎选型调研分析

京东科技开发者

关于代购系统的全面解析

Noah

5大低代码开源平台案例研究

NocoBase

开源 低代码 开发平台 案例研究

微信私域&SEO运营神器,9款RPA机器人上线

八爪鱼采集器︱RPA机器人

微信 RPA 自动化 RPAxAI

完蛋!我被 Out of Memory 包围了!

京东科技开发者

再一次对MAZDA着迷 EZ先享官见证马自达百年不变的传承

极客天地

中微公司就被列入中国军事企业清单正式起诉美国国防部

新消费日报

python多继承的3C算法是什么?怎么用?

我再BUG界嘎嘎乱杀

Python 编程 后端 多继承 3C算法

云解析DNS是什么意思?和普通的DNS有什么区别?

国科云

大模型,不是消费电子的救星

脑极体

AI

HBlock 存储资源盘活系统:企业降本增效与绿色转型的新引擎

老壳有点爽

HBlock

完蛋!我被 Out of Memory 包围了!

京东科技开发者

宝尊将于2024年8月28日发布2024年二季度及中期未经审计财务业绩

财见

面试官:JDK中都用了哪些设计模式?

王磊

Java

昆仑万维发布 AI 流媒体音乐平台 Melodio;Grok-2 Beta 发布,可在 X 上生成图像丨 RTE 开发者日报

声网

火山引擎国际深度学习图像压缩挑战赛蝉联冠军_音视频(后端)_字节跳动技术团队_InfoQ精选文章