
实时通信(RTC)作为支撑实时音视频交互的核心技术,近十年来已深度渗透至视频会议、直播连麦、在线教育及远程协作等多个场景。然而,随着超高清视频需求呈现爆发式增长,传统 RTC 技术面临严峻挑战。单路 4K 视频流的码率较 1080P 提升 4 倍以上,而用户对延迟的容忍度却从秒级压缩至 200ms 以内,尽管 5G 网络虽通过大带宽特性缓解了部分压力,但其部署成本与终端渗透率仍制约着其规模化发展。
在此背景下,RTC 技术必须加速升级以应对挑战,而新一代编码标准 H.266/VVC 凭借其高效的屏幕视频编码技术,正在成为 RTC 向超高清、低时延演进的破局关键。
面向未来的视频编码标准,如何定义“下一代”RTC 场景?
首先,H.266/VVC 有着更高的压缩效率、更优的编码质量,其深度适配 RTC 场景的需求。
更高的压缩效
在保证相同的视频质量下,理论上,H.266 对视频的压缩率相比于 上一代编码标准 H.265/HEVC 提高了 50%,大大降低了视频传输对网络带宽的要求,有效得缓解了网络拥堵,减少了卡顿和延迟现象,为用户提供更流畅的视频通信体验。
更优的编码质量
H.266 的帧内预测模式从 H.265 的 35 种扩充至 67 种,更多的预测方向能够精确捕捉字符笔画、图形线条的细微变化,减少像素预测误差。配合交叉分量预测(CCLM)、矩阵加权帧内预测(MIP)等前沿工具,进一步优化预测值,显著提升编码准确性,让共享内容在接收端得以清晰还原。
H.266 的帧间预测引入放射运动补偿打破传统平移模型局限,以数学矩阵精确描述物体的旋转,缩放等复杂运动轨迹,可以更精确的预测 RTC 应用里人物动作,物体移位等复杂运动。几何划分模式支持 64 种边界划分,能细致的勾勒运动物体的轮廓,匹配块间相关性,优化运动估计精度,显著提升帧间预测的准确性,提升编码质量。在高清和超高清视频的 RTC 应用中,如远程医疗诊断、高清视频会议等,高质量的视频图像有助于提高用户对信息的准确理解和交互效果。
更适合 RTC 场景的编码工具
屏幕编码工具(Screen Content Coding,SCC):随着屏幕共享、游戏直播和远程会议等新兴需求的出现,屏幕内容视频作为特殊的视频类型获得越来越多的关注。H.266 根据该类视频的内容特性,引入了诸多工具来提高压缩率,如:帧内块复制 IBC,调色板模式 PLT,变化跳过模式的残差编码,自适应色度变换(ACT)等。屏幕编码工具在主档次(Main profile)中被默认支持,确保了 RTC 应用在不同设备间进行屏幕共享和视频通信时的兼容性和一致性。
参考图像重采样(Reference Picture Resampling, RPR):在 RTC 的视频通话场景中,网络带宽往往是动态变化的。当网络带宽变窄时,可降低视频的分辨率以适应有限的带宽。传统的视频编解码器在这种情况下,服务器需要发送 “即时解码刷新”(IDR)帧来改变视频的分辨率。而 IDR 帧会占用较多的带宽资源,导致端到端的延迟和阻塞率增加。H.266 的 RPR 技术能够在解码时直接改变视频的分辨率,无需编码 IDR 帧,避免了大量 IDR 帧所带来的数据量激增,使得视频通话更加流畅,不会出现明显的卡顿,为用户提供了更优质的实时通信体验。

高压缩率“光环”之下,H.266 计算复杂度亟待解决
H.266 凭借其超高压缩效率,为高清视频的传输与存储带来了全新突破。但是,在性能提升的另一面却是复杂度的显著提升。CPU 计算复杂度及编码耗时的增加,使得 H.266 在一些 CPU 性能较差的低端机上无法满足实时编码的需求,这将导致在超高清直播过程中,会有肉眼可见的画面延迟。为保证用户的实时交互体验,火山引擎推出自研 BVC2 编码器,通过引入了一系列质量优化和编码加速算法,在加速编码器的同时兼顾了压缩效率与主观质量。
质量优化方面
自研编码器 BVC2 引入了时域自适应量化算法(Temporal Adaptive Quant,TAQ):视频不同区域的重要性不同,若将有限的带宽资源分配给重要性更高的区域,将有效提高视频的主观及客观质量。HEVC 所提出的 CUtree 工具,通过预估当前编码单元给后续帧所提供的参考信息的多少,来定义该单元的重要性。由于 CUtree 需拿到未来帧的编码信息才能指导当前编码单元的参数调整,这将带来较大的时延,在注重实时性的 RTC 场景是不适用的。因此我们所开发的编码器 BVC2 提出了 TAQ 工具,利用已编码图像帧的预测和重建等信息,来建立当前编码单元的失真传播关系(示例图如下),并以此为依据估计编码单元的重要性程度,同时调整量化参数,实现带宽资源的更高效分配。该工具在保证了低延时的条件下,有效提高了视频的压缩效率,带来了显著的画质提升。

编码加速方面
自研编码器 BVC2 加入了很多快速算法来提高编码器的运行速度,例如:通过背景检测算法,快速决策 cu 划分及预测模式;利用相邻编码单元的已知信息及当前编码单元自身的内容特征,来自适应的决策编码单元的块划分方式和预测模式;引入决策树可进一步强化上述判断的准确度,并对编码工具进行剪枝;在每个编码阶段和编码工具中都加入了多个快速算法来进行剪枝加速,同时对代码和内存进行精心设计,使用汇编进行深度优化,进一步提升编码速度;BVC2 在保证压缩效率的同时,编码时间显著降低。在最新的 JVET- AJ0256 提案中,在 RTC 场景 LDP CQP 配置下,BVC2 相比于 x265 superfast 档位在加速 1.2 倍的同时,压缩效率提升 47.05%。未来软件算法的持续优化也将进一步降低编码复杂度,提升编码效率。
可以看出,在 H.266 的重塑之下,RTC 正在迎来新一轮的升级,技术进步正在为视频行业带来全新的可能性。在这场技术浪潮中,火山引擎 BVC2 自研编码器凭借其持续的技术创新,助力实时音视频交互的体验升级。
未来,H.266 将会与 RTC 进一步深度融合,为用户带来更流畅、清晰、高效的互动体验。跨越时空的高墙,点亮全球范围内的无缝连接与协作。
评论