专访张行功：2021，5G将会倒逼传输协议、算法做出更多改进

本文首发于 InfoQ，由声网 Agora 开发者社区与 InfoQ 联合策划，并由 InfoQ 审校。

在 RTC 技术领域，如何兼顾实时视频传输的低延时和视频质量，以及如何评定视频传输质量，始终都是备受关注的话题。随着 5G 的商用，视频传输在协议层、应用层又面临着一些急需解决的变革。尽管不少 AI 模型在编解码、传输层已经开始落地应用，但其实 AI 模型还有很大的提升空间。我们邀请了北京大学王选计算机研究所的张行功教授，聊聊 2021 年视频传输技术、VR 视频以及 AI 模型在 RTC 领域应用，将会发生哪些改进与革新。

实时网络拥塞控制

声网开发者社区：您曾经在演讲中分享过实时网络拥塞控制的研究思路。有提到数据驱动的网络模型，用于预测网络状况，您还引入了神经网络。您认为目前网络拥塞控制算法的瓶颈是什么？引入神经网络带来哪些改变？

张行功：我们先看一下网络拥塞控制的目标是什么，尤其在实时音视频传输方面。第一个目标就是要求公平，其次就是低延时，最后是带宽使用率。

实现上述三个目标，最大的问题是无法预测其他用户行为方式，互联网是一个开放共享的网络。

另一个瓶颈就是由于存在网络延迟，无法获得最新的网络状态。

所以这些障碍会限制我们的决策，即决定应该发多少数据量，才能保证低延迟、高带宽，尤其在物理链路波动剧烈的 4G/5G 移动网络。

在一个不清楚网络状态和动态变化的网络环境下，要实现上述三个目标，那么这就是拥塞控制面临的最大挑战。传统上有很多种方法对网络带宽或者网络延时进行探测、建模，例如 AIMD、delay-based 等方法。但是由于互联网太过于复杂，尤其是互联网用户的行为不可预测，传统上用数学模型的方法来描述网络状态是已被证明不够准确的了。

基于上述原因，我们引入了神经网络和机器学习方法，进行拥塞控制研究。主要包括两部分，一部分是公平性目标，可采用数学模型，这是针对网络模型中可以抽象出来的，而且并且可以去验证和重现的特征，进行数学建模。另一部分是网络状态，尤其像现在的互联网状态，它缺乏比较明确的数学模型，那么采用统计和机器学习就是一个比较好的方法。

声网开发者社区：神经网络、深度学习，被当做工具应用到了很多 RTC 技术环节中，比如网络传输、编解码。仅视频网络传输层面，您认为 AI 模型这个工具是否已经被物尽其用了？还有哪些可以改进或发挥的空间？

张行功：在我看来，现在机器学习在网络中的使用，还处于一个非常初级的阶段。它的潜力还没有被充分挖掘出来，目前大家只是尝试用它解决一些简单问题，但有时效果并不好。

这里涉及到一个问题，什么地方适合用机器学习或 AI 模型，什么时候不适用？

其实并不是所有的问题，只要把数据给机器学习的模型，它都能处理。因为这也违背了人类对智能的定义。智能本来就分成演绎推理部分和归纳推理部分。AI 模型只能代表归纳部分，演绎推理的职能它还承担不了。

所以从这个角度来讲，我觉得机器学习的潜力远远的没有被发挥出来，尤其在网络领域，还有很多新的技术没有被发掘。

一个可能的改进方向，从目前来看，不管在网络传输还在编码部分的应用上，AI 模型一般都对数据有依赖，那么一旦换了一个数据集或换了一个场景，它的性能表现就会变差。

这其实证明了现在的机器学习算法有很大的局限性，其中最重要的一个问题就是模型在设计时，并没有针对于数据集的通用性和局限性，设计出一个泛化性能更好的，适用于不同场景的积极学习的模型。

所以，我觉得未来机器学习的发展，更会从一种模型复用和小样本学习的角度去设计，而不仅仅在神经网络本身去做优化。举个例子，我们在做传输的时候经常讲预测带宽。我们可以根据历史的数据，去预测未来的网络带宽。但是训练出来的模型，一旦换了一个网络环境，比如从 4G 到 5G，这时训练后的模型到新的环境下，泛化性就特别差。这也就是为什么一些新的机器学习的方法，会从架构上来改进。

声网开发者社区：目前大家普遍都是在 4G 网络下进行实验和应用落地。不过大家也在关注 5G。您认为 5G 商用后，视频传输相关的技术，比如从协议层面、算法层面，会需要作出哪些改进来适应这样的网络变化？

张行功：5G 出现后，会对传输层协议的要求更高，这里面主要有几个原因：首先是由于 5G 的带宽更大了，然后是由于 5G 的抖动，不管是延迟抖动还是带宽波动都会更大，已经远远超出了 4G 范畴。

这里先解释一下，为什么 5G 网络抖动会更大？通过测量发现，5G 是通过时间片方式调度频谱资源，这意味着将某个时间片分配给一个用户时，它带宽资源是独占的，但在其他时刻是得不到网络资源的。因此，如果我们从非常细的粒度，比如从某一个数据包的角度来看，它的延时波动以及数据包之间的带宽波动都会非常剧烈。5G 的理论带宽是 1GB/s，所以一旦出现某个时间片未将资源分配你的时候，那么你的带宽波动会非常大。

除了以上两点，5G 会带来边缘计算的普及，未来很多数据和服务都会放在一些边缘服务器上。边缘计算加上 5G 的整个物理带宽和延时的提升，会倒逼传输层协议的改进。不管是传统的 TCP 还是这些年大家比较关注的像 QUIC、BBR，以及一些私有协议。现在的传输层协议已经存在 40 年了，存在较大变革的需求。

另外从应用层的角度讲，比如说我们说的 ABR 或其它业务层相关的算法，随着 5G 商用后，都会在边缘节点发挥作用。因此，内容缓存算法、动态自适应、分布式视频编码和处理等，都会迁移到边缘节点上，而且对这些算法的性能和交互能力提出更高的要求。

5G 会推动 VR、AR、云游戏等实时视频应用场景的发展。从应用层的算法，包括刚刚提到的海量节点、小存储，到实时交互、边缘节点的业务层算法等都会得到改进。

VR 视频相关技术

声网开发者社区：您的研究中也有涉及到 VR 领域。您认为目前 VR 视频类应用，最急需解决的技术问题有哪些？分别有什么解决思路？

张行功：从广义来讲，VR 视频包含全景视频、AR、云游戏，因为现在很多云游戏也是基于视频的实时交互。所以这些都是属于 VR 视频的应用的体现形式。实际上其中最核心的问题有三个：

第一个问题就是它是一种实时交互式的视频。交互式视频就存在一个延时的问题，不管是我们看视频，还是去打云游戏，只要用户做一动作，或头部移动一个角度，画面就需要在 20ms 之内做出相应的反馈。否则，人的体验就会下降。

这对网络传输就提出了很高的要求。因为我们知道 20ms 是一个端到端的延时，而且是一个 round trip time，这里包含了网络、编解码、服务器处理、客户端渲染的延时。即使是未来实现边缘计算，想实现 20ms 的端到端往返延时也绝非易事。

第二个核心的问题就是人的运动预测。例如，我们看 VR 视频的时候会有头部的运动。未来会有 6DoF 的视频，我们不仅会有头部运动，还会在虚拟场景中运动。在这种情况下，我们如何去预测人的运动是一个非常重要且急需解决的问题。

运动预测主要是解决第一个延迟问题，从物理角度来讲，20ms 是一个难以达到的延时。现在业界提出的解决方案是通过预测人的运动，然后预加载数据。相当于在用户没有看到这一部分的视频画面的时候，我就把这个数据下载到本地。当用户移动到某个位置时，实际上就是从本地来获取这个画面，延时就小很多了。

但是，人的行为是有很大的随机性，所以随之而来的问题是如何去预测人的行为？比如我们观看 VR 视频时，每个人感兴趣的内容和位置可能都不一样。这是目前急需解决的一个难题。

第三个问题就是高通量数据。我们现在看到的这些 VR 视频可能还只是 4K、8K 分辨率的，它的码率大约在 100MB 级别。但是未来可能会有 16K，甚至 24K 的视频。16K 是什么概念呢？相当于我们在电视上看的 720P 平面视频。我们在电脑显示器上可观看的视角大约 30 度。如果将 720P 的视频延展为 360 度，这时候的数据量就相当于一个 16K 视频。未来如果加入 6DoF 视频，支持用户在 VR 视频场景中自由活动，则会有更大的数据量。另外，AR、云游戏等场景也会产生越来越多的数据。

我们看到，硬件在不断发展。苹果已经可以实现单眼 8K 的 VR 终端了。但网络的发展实际上还没能跟上硬件的步伐。如此来看，很长时间以内，网络传输的瓶颈会始终存在。

在这方面，我们做了几个探索，一个是 QoE 驱动的视点传输。我们根据用户看的区域，传输对应的数据。这是一个比较有效的手段，已经在很多地方应用。

另一方面的研究是针对云游戏的。云游戏属于 VR 视频的一个分支，对延迟更加敏感，数据量也很大，同时用户交互行为更加复杂，很难进行动作预测。所以我们探索一种零延迟的画面预测方法，在一定程度上来解决交互延迟的问题。

声网开发者社区：一直以来，您都在研究事视频通信、网络传输相关的课题。从您的角度来看，您认为 2020 年这些方向出现了哪些值得一提的研究进展？您认为 2021 年最重要的技术趋势是什么？

张行功：从视频通信、网络传输方面，在 2020 年出现了一些比较新的场景，例如云游戏和云桌面。其本质上就是实时视频，但是技术挑战会比传统的视频更大。因为就像之前分析的，它的延时要求很苛刻，人的行为很难预测。2020 年有一些技术尝试，但是效果不是很理想。所以在 2021 年，业界还会有更多新角度的尝试来解决这些问题。

第二个就是面向 5G 以及卫星网络的研究和应用。5G 网络已经开始商用，卫星网络方面，我们已经可以看到 Elon Musk 的 StarLink 也开始提供测试服务了。所以面向新型网络的低延时传输研究也会是 2021 的热点之一。

视频传输方面。在 2020 年，机器学习、强化学习等方法更多地被用在了网络领域，包括传输层、应用层的视频通信。在 2021 年将会有更多这方面的研究，提供它的实用性和泛化能力。

最后，视频传输质量评价也是 2020 年重要的热点之一。由于现在网络视频的种类很多，包括实时视频、直播、短视频、VR 视频等，但传统上视频质量评价都是面向编码，但对传输的评价一直没有一个很好的框架。视频传输质量的监控和评价是业务的核心，包括由数据监测、质量评价到故障报警、修复的一套闭环的质量体系，将会是 2021 年被持续关注的热点之一。

创作场景

专访张行功：2021，5G 将会倒逼传输协议、算法做出更多改进

实时网络拥塞控制

VR 视频相关技术