视频编码标准发展史

2016 年，短视频应用崭露头角，并进入持续爆发式增长阶段；

2019 年 3 月 1 日，工业和信息化部、国家广播电视总局、中央广播电视总台联合发布《超高清视频产业发展行动计划（ 2019 - 2022 年）》，大力推进超高清视频产业发展和相关领域的应用；

同年，电商直播开始引领新的消费模式；

2020 年初，视频会议火遍全球；

2021 年央视春节联欢晚会将首次采用 8K 超高清视频进行呈现，同时融入多种虚拟现实、增强现实技术的运用，为观众带来巨大的视听震撼体验。

同时，根据思科公司的预测，到 2022 年，在线视频将占所有消费者互联网流量的 82％以上，将是 2017 年的 15 倍...

以上的种种现象和数据表明：视频已经在人们的日常工作和生活中无处不在，不仅用于娱乐休闲购物等等，并且正逐步替代文字成为人们获得知识和资讯的最重要方式。

这些应用的背后是一系列非常复杂的技术，其中最核心、最基础的技术之一是视频编码/压缩技术。

视频编码技术

视频信号的数据量极大。以超高清（ Ultra-High-Definition , UHD ）视频为例，分辨率为 3840×2160 像素，帧率为 60 （即每秒有 60 幅图像），那么未经压缩的 1 秒视频的数据量超过 119.4 亿比特（ 3840×2160 像素/图像× 24bits /像素× 60 图像/秒）。这么巨大的数据量，不经过压缩直接传输和存储视频信号几乎是无法实现的。而经过压缩之后，在基本不影响视觉感受的前提下，视频信号的数据量可以缩小为原始数据量的几十分之一甚至几百分之一。

视频编码技术使得远程视频信号的流畅清晰播放成为可能。

为何需要标准化？

目前广泛应用的视频编码和压缩技术主要是一些视频编码标准。那么视频编码技术为什么要标准化呢？

主要目的是可以达到不同公司不同产品之间的互联互通。比如由某一厂家编码器得到的视频码流可以被其它不同的厂家生产的解码器播放。视频编码标准作为各个厂家所必须遵循的规范，蕴含着难以估量的商业价值。国际上的行业巨头，例如高通、三星、 LG 、索尼、英特尔、爱立信等公司都投入巨资长期耕耘，并从目前主流的国际标准的专利中获得了巨额回报。每个视频编码标准都凝聚了很多视频编码技术专家的智慧结晶，而新一代视频编码标准的发布往往会推动新的视频应用的产生和普及。

比如： H.262/MPEG-2 标准推动了模拟电视到数字电视的变革； H.264/AVC 使得高清视频和互联网视频得以广泛推广； H.265/HEVC 则成功推动了 4K 超高清视频的普及；而 H.266/VVC 则对 8K 超高清、屏幕、高动态和 360 度全景视频等新的视频类型，以及自适应带宽和分辨率的流媒体和实时通信等应用有了更好的支持。

前面提到的四个视频编码标准都是国际上的两个视频专家组的成员共同努力的成果：国际标准化组织及国际电工委员会 ISO/IEC 旗下的动态图像专家组 MPEG（ Moving Picture Experts Group ） 和国际电联电信标准化部门 ITU-T 旗下的视频编码专家组 VCEG（ Video Coding Experts Group ）。除了这几个标准外，在视频编码标准的历史长河中，还出现过若干其它标准，如图 1 所示。

图 1. 视频编码标准一览

在一次 MPEG 开幕全会上， MPEG 创始人和其 32 年的主席 Leonardo Chiariglione 秀了中文，讲了《三国演义》的开篇：“话说天下大势，分久必合，合久必分”。前面几代国际视频编码标准再次验证了这个历史动态趋势。

MPEG 和 VCEG 先是分别独自制定自己的标准，然后合在一起做，然后又分开，然后又合作，如此往复。MPEG 分别在 1993 年、 1999 年和 2020 年独自制定了 MPEG-1、MPEG-4 Visual 和 MPEG-5/EVC 标准的第一版； VCEG 分别在 1990 年和 1995 年独自制定了 H.261 和 H.263 标准的第一版； H.262/MPEG-2 ， H.264/AVC ， H.265/HEVC 和 H.266/VVC 则都是二者合作一起制定的，第一版完成年份是 1994 、 2003 、 2013 和 2020 。

视频编码标准的发展

国内外视频编码标准

我国视频编码领域的专家从 1996 年开始追踪国际标准化工作。除了上面提到的两个国际标准化组织以外， 2002 年 6 月，我国正式成立了数字音视频编解码技术标准工作组（ AVS ），其主要任务是面向我国的信息产业需求，联合国内企业和科研机构，制（修）订数字音视频的压缩、解压缩、处理和表示等共性技术标准。自 AVS 工作组成立以来，至今，已制订了三代 AVS 标准： AVS , AVS+/AVS2 和 AVS3 。

此外，一些技术实力雄厚的公司也会自己研发视频编码标准。比如：微软（ Microsof t）在 2003 年制定了 VC-1 标准； xiph.org 在 2004 年推出 Theora 标准； RealNetworks 在 2015 年推出 RMHD （ RealMedia High Definition ）的第一版；Google 在 2013 年推出 VP9 标准，接着研发 VP10 ，并于 2015 年开始与其他公司联合成立 AOM（ Alliance for Open Media ），而 AOM 在 2019 年正式推出 AV1 标准。

需要说明的是，视频编码标准定义的是比特流格式和解码（解压缩）过程，而不规定具体编码过程，这样编码器开发者有更多的灵活性，可以研发非标准（ non-normative ）的编码优化算法。

视频编码标准发展的三条主线

应用和技术

纵观这些视频编码标准，其发展史中穿插着两条主线——应用和技术。最早的 H.261 标准的主要目标应用是基于综合业务数字网的视频电话。当时 VCEG 这个名字还没有，工作组的名字叫做视频电话编码特别组（ Specialists Group on Coding for Visual Telephony ），支持的分辨率很小， 352×288 和 176×144 。 MPEG-1 的主要目标应用是现在有些年轻人甚至都没有见过的 VCD ； MPEG-2 的主要目标应用是数字电视； H.263 的主要目标应用除了视频电话外还有多方视频会议。

从 MPEG-4 Visual 开始的每个视频编码标准的目标应用都包括之前的应用，而在 MPEG-4 Visual 标准化的时候流媒体开始出现，从那时起流媒体成为每个新视频编码标准的目标应用，而且越来越重要。（ H.264/AVC ， H.265/HEVC 和 H.266/VVC 的新的目标应用在前面已经提及，这里就不再重复。）

从标准技术演进来看，至今为止的历代视频编码标准采用的技术都是基于混合视频编码（ Hybrid Video Coding ）框架，这种编码框架往往包含基于运动补偿的预测技术以及对预测残差的变换和量化技术。除此之外，更多的编码技术也被不断的引入标准，比如滤波器技术、解码端运动信息改进等。

总体来说是充分利用摩尔定律，逐步拿更高的计算量换取编码压缩性能的提升；具体算法设计越来越复杂、越来越自适应化。而从算法设计的角度来说难度也越来越大。在 2001 、 2002 年做 H.264/AVC 时，一个工具如果只能拿到 3% 以下的性能提高大家可能都不感兴趣，而在 2019 、 2020 年做 H.266/VVC 时，有 0.5% 的性能提高的提案也会引起大家的兴趣。

参与人员的变化

视频编码标准的发展中还穿插着另外一条线——参与人员的变化。随着整个视频产业的高速发展，参与研发制定视频标准的人员越来越壮大。在做 H.264/AVC 期间，参会人数通常不到 100 人，输入文档通常也只有几十篇，峰值是 150 篇。在做 H.265/HEVC 期间， JCT-VC 文档号从 2012 年 2 月会议开始从之前的三位数变为四位数，当次会议的输入文档数为 738 ，参会人数为 255 。在做 H.266/VVC 期间， JVET 的文档号一开始就是四位数， 2019 年 7 月会议的输入文档数高达 1178 ，参会人数为 340 。

视频编码标准的制定过程

前面介绍了编码标准的发展史，具体到某一个标准，它的制定过程是怎样的呢？一个国际标准的诞生往往要经历七个阶段： 前期探索、 举证（ Call for Evidence , CfE ）和技术征求（ Call for Proposal , CfP ）及响应、 标准项目正式启动和形成工作草案（ WD , Working Draf t）、 制定委员会草案（ Committee Draft , CD ）、 制定国际标准草案（ Draft International Standard , DIS ）、 国际最终草案（ Final Draft International Standard , FDIS ） 到 国际标准（ International Standard , IS ）正式发布 。整个过程见图 2 ，对于每个阶段，可能会持续一个或多个标准会议周期，每个阶段的目标各有不同，比如：在前期探索这个阶段，主要是做一些技术的储备。对于国家标准或者企业的自研标准制定过程，上述的部分环节会略有调整。

图 2. ISO 标准的诞生过程

图三描述了 H.266/VVC 的关键节点。从 2015 年 1 月份到 2015 年 10 月，属于 KTA （ Key Technology Area ）阶段，大家可以比较发散去做一些技术的探索 [1] 。 2015 年 10 月，随着一个超过 HEVC 10+% 编码性能的技术提案的递交 [2 ]， JVET （ Joint Video Exploration Team ），即联合探索委员会正式成立，同时，该提案所对应的软件平台定义为 JEM （ Joint Exploration Model ）。从此，新的技术都会基于 JEM 进行验证，每次标准会议之后发布一个新的 JEM 版本。截止到 2017 年 7 月份，历经 7 次 JVET 标准会议， JEM 完成了 7 个版本的迭代，这个版本性能已经比 HEVC 的压缩性能提高 30% 。这向工业界提供了一个强有力的信号：下一代标准还是非常有希望达成既定目标的（主观质量相同的条件下，码率降低达 50% ）。

于是，标准化工作进入第二阶段：举证和技术提案征求及响应阶段举证，这中间历经 3 次标准会议。 2018 年 4 月份， CfP 响应的测试结果公开， 23 份 CfP 响应中的最高性能版本已经比 HEVC 节约 40% 的码率，这意味着下一代视频压缩技术已经比较成熟，从而正式启动 VVC 标准的制定工作。从 2018 年 4 月起，历经十次标准会议，数千份技术提案的审议，全球数百位专家会上会下日日夜夜的共同努力，最终 VVC 标准的第一版（ VVC v1 ）于 2020 年 7 月正式完成。图 4 列举了参与 VVC 标准化工作的一些公司；可喜的是，中国公司的参与度非常高，中国公司在国际舞台上扮演者越来越重要的角色。

图 3. VVC 标准诞生过程

图 4. VVC 标准主要参与公司

对于视频编码标准应用厂商来说，面对众多标准，该如何做出抉择？每个人都有自己的见解。笔者认为，要根据自身情况，分析各个标准的利弊，选择最适合自己的标准。当然，我们希望看到每个有技术竞争力的标准都能够有一个相对公平的专利授权收费原则，从而让更多的用户可以从最先进的视频标准中获益。

最后

最后，很多人可能会问， H.266/VVC 之后的下一代标准什么时候会出来呢？可惜，笔者现在回答只能是：目前还无法知道。但是可以明确的是，人们对视频编码技术的探索以及对高效视频编码技术的需求是不会改变的。

JVET 最近开始了两个方向的探索，一个是基于新兴深度学习的视频压缩（也包括基于深度学习和传统混合视频编码框架的结合），另外一个是基于传统混合视频编码框架技术的继续挖掘。尽管目前都还只是刚刚开始，我们已经看到不少突破性的进展。

比如笔者所在的字节跳动团队提出的一种基于深度学习的自适应滤波器算法 [3] ；对三个颜色分量（ Y, U, V ）带来（ 10% , 28% , 28% ）的性能增益；高通公司最近报告的基于混合视频编码框架的多项技术提升合在一起可以带来（ 11% , 13% , 13% ）的性能增益 [4] 。

相信在不久的将来，通过标准小伙伴们的持续努力，我们会看到越来越多的新技术的涌现。当再次看到百分之三十左右的压缩性能提高的时候，咱们就可以准备聆听下一代视频编码标准正式启动的钟声了。

参考文献

[1] J Chen, Y Chen, M Karczewicz, X Li, H Liu, L Zhang, “Coding tools investigation for next generation video coding”, ITU-T SG16 Doc. COM16–C806, Feb. 2015.

[2] M Karczewicz, J Chen, WJ Chien, X Li, A Said, L Zhang, X Zhao, “Study of coding efficiency improvements beyond HEVC”, ISO/IEC MPEG doc. m37102, Oct. 2015.

[3] Y. Li, L. Zhang, K. Zhang, “AHG11: Convolutional Neural Network-based In-Loop Filter with Adaptive Model Selection”, JVET-U0068, Jan. 2021.

[4] Y.-J. Chang, C.-C. Chen, J. Chen, J. Dong, etc. al, “Compression efficiency methods beyond VVC”, JVET-U0100, Jan. 2021

创作场景