本文首发于 InfoQ,由声网 Agora 开发者社区 与 InfoQ 联合策划,并由 InfoQ 审校。
在 RTC 技术领域,如何兼顾实时视频传输的低延时和视频质量,以及如何评定视频传输质量,始终都是备受关注的话题。随着 5G 的商用,视频传输在协议层、应用层又面临着一些急需解决的变革。尽管不少 AI 模型在编解码、传输层已经开始落地应用,但其实 AI 模型还有很大的提升空间。我们邀请了北京大学王选计算机研究所的张行功教授,聊聊 2021 年视频传输技术、VR 视频以及 AI 模型在 RTC 领域应用,将会发生哪些改进与革新。
实时网络拥塞控制
声网开发者社区:您曾经在演讲中分享过实时网络拥塞控制的研究思路。有提到数据驱动的网络模型,用于预测网络状况,您还引入了神经网络。您认为目前网络拥塞控制算法的瓶颈是什么?引入神经网络带来哪些改变?
张行功:我们先看一下网络拥塞控制的目标是什么,尤其在实时音视频传输方面。第一个目标就是要求公平,其次就是低延时,最后是带宽使用率。
实现上述三个目标,最大的问题是无法预测其他用户行为方式,互联网是一个开放共享的网络。
另一个瓶颈就是由于存在网络延迟,无法获得最新的网络状态。
所以这些障碍会限制我们的决策,即决定应该发多少数据量,才能保证低延迟、高带宽,尤其在物理链路波动剧烈的 4G/5G 移动网络。
在一个不清楚网络状态和动态变化的网络环境下,要实现上述三个目标,那么这就是拥塞控制面临的最大挑战。传统上有很多种方法对网络带宽或者网络延时进行探测、建模,例如 AIMD、delay-based 等方法。但是由于互联网太过于复杂,尤其是互联网用户的行为不可预测,传统上用数学模型的方法来描述网络状态是已被证明不够准确的了。
基于上述原因,我们引入了神经网络和机器学习方法,进行拥塞控制研究。主要包括两部分,一部分是公平性目标,可采用数学模型,这是针对网络模型中可以抽象出来的,而且并且可以去验证和重现的特征,进行数学建模。另一部分是网络状态,尤其像现在的互联网状态,它缺乏比较明确的数学模型,那么采用统计和机器学习就是一个比较好的方法。
声网开发者社区:神经网络、深度学习,被当做工具应用到了很多 RTC 技术环节中,比如网络传输、编解码。仅视频网络传输层面,您认为 AI 模型这个工具是否已经被物尽其用了?还有哪些可以改进或发挥的空间?
张行功:在我看来,现在机器学习在网络中的使用,还处于一个非常初级的阶段。它的潜力还没有被充分挖掘出来,目前大家只是尝试用它解决一些简单问题,但有时效果并不好。
这里涉及到一个问题,什么地方适合用机器学习或 AI 模型,什么时候不适用?
其实并不是所有的问题,只要把数据给机器学习的模型,它都能处理。因为这也违背了人类对智能的定义。智能本来就分成演绎推理部分和归纳推理部分。AI 模型只能代表归纳部分,演绎推理的职能它还承担不了。
所以从这个角度来讲,我觉得机器学习的潜力远远的没有被发挥出来,尤其在网络领域,还有很多新的技术没有被发掘。
一个可能的改进方向,从目前来看,不管在网络传输还在编码部分的应用上,AI 模型一般都对数据有依赖,那么一旦换了一个数据集或换了一个场景,它的性能表现就会变差。
这其实证明了现在的机器学习算法有很大的局限性,其中最重要的一个问题就是模型在设计时,并没有针对于数据集的通用性和局限性,设计出一个泛化性能更好的,适用于不同场景的积极学习的模型。
所以,我觉得未来机器学习的发展,更会从一种模型复用和小样本学习的角度去设计,而不仅仅在神经网络本身去做优化。举个例子,我们在做传输的时候经常讲预测带宽。我们可以根据历史的数据,去预测未来的网络带宽。但是训练出来的模型,一旦换了一个网络环境,比如从 4G 到 5G,这时训练后的模型到新的环境下,泛化性就特别差。这也就是为什么一些新的机器学习的方法,会从架构上来改进。
声网开发者社区:目前大家普遍都是在 4G 网络下进行实验和应用落地。不过大家也在关注 5G。您认为 5G 商用后,视频传输相关的技术,比如从协议层面、算法层面,会需要作出哪些改进来适应这样的网络变化?
张行功:5G 出现后,会对传输层协议的要求更高,这里面主要有几个原因:首先是由于 5G 的带宽更大了,然后是由于 5G 的抖动,不管是延迟抖动还是带宽波动都会更大,已经远远超出了 4G 范畴。
这里先解释一下,为什么 5G 网络抖动会更大?通过测量发现,5G 是通过时间片方式调度频谱资源,这意味着将某个时间片分配给一个用户时,它带宽资源是独占的,但在其他时刻是得不到网络资源的。因此,如果我们从非常细的粒度,比如从某一个数据包的角度来看,它的延时波动以及数据包之间的带宽波动都会非常剧烈。5G 的理论带宽是 1GB/s,所以一旦出现某个时间片未将资源分配你的时候,那么你的带宽波动会非常大。
除了以上两点,5G 会带来边缘计算的普及,未来很多数据和服务都会放在一些边缘服务器上。边缘计算加上 5G 的整个物理带宽和延时的提升,会倒逼传输层协议的改进。不管是传统的 TCP 还是这些年大家比较关注的像 QUIC、BBR,以及一些私有协议。现在的传输层协议已经存在 40 年了,存在较大变革的需求。
另外从应用层的角度讲,比如说我们说的 ABR 或其它业务层相关的算法,随着 5G 商用后,都会在边缘节点发挥作用。因此,内容缓存算法、动态自适应、分布式视频编码和处理等,都会迁移到边缘节点上,而且对这些算法的性能和交互能力提出更高的要求。
5G 会推动 VR、AR、云游戏等实时视频应用场景的发展。从应用层的算法,包括刚刚提到的海量节点、小存储,到实时交互、边缘节点的业务层算法等都会得到改进。
VR 视频相关技术
声网开发者社区:您的研究中也有涉及到 VR 领域。您认为目前 VR 视频类应用,最急需解决的技术问题有哪些?分别有什么解决思路?
张行功:从广义来讲,VR 视频包含全景视频、AR、云游戏,因为现在很多云游戏也是基于视频的实时交互。所以这些都是属于 VR 视频的应用的体现形式。实际上其中最核心的问题有三个:
第一个问题就是它是一种实时交互式的视频。交互式视频就存在一个延时的问题,不管是我们看视频,还是去打云游戏,只要用户做一动作,或头部移动一个角度,画面就需要在 20ms 之内做出相应的反馈。否则,人的体验就会下降。
这对网络传输就提出了很高的要求。因为我们知道 20ms 是一个端到端的延时,而且是一个 round trip time,这里包含了网络、编解码、服务器处理、客户端渲染的延时。即使是未来实现边缘计算,想实现 20ms 的端到端往返延时也绝非易事。
第二个核心的问题就是人的运动预测。例如,我们看 VR 视频的时候会有头部的运动。未来会有 6DoF 的视频,我们不仅会有头部运动,还会在虚拟场景中运动。在这种情况下,我们如何去预测人的运动是一个非常重要且急需解决的问题。
运动预测主要是解决第一个延迟问题,从物理角度来讲,20ms 是一个难以达到的延时。现在业界提出的解决方案是通过预测人的运动,然后预加载数据。相当于在用户没有看到这一部分的视频画面的时候,我就把这个数据下载到本地。当用户移动到某个位置时,实际上就是从本地来获取这个画面,延时就小很多了。
但是,人的行为是有很大的随机性,所以随之而来的问题是如何去预测人的行为?比如我们观看 VR 视频时,每个人感兴趣的内容和位置可能都不一样。这是目前急需解决的一个难题。
第三个问题就是高通量数据。我们现在看到的这些 VR 视频可能还只是 4K、8K 分辨率的,它的码率大约在 100MB 级别。但是未来可能会有 16K,甚至 24K 的视频。16K 是什么概念呢?相当于我们在电视上看的 720P 平面视频。我们在电脑显示器上可观看的视角大约 30 度。如果将 720P 的视频延展为 360 度,这时候的数据量就相当于一个 16K 视频。 未来如果加入 6DoF 视频,支持用户在 VR 视频场景中自由活动,则会有更大的数据量。另外,AR、云游戏等场景也会产生越来越多的数据。
我们看到,硬件在不断发展。苹果已经可以实现单眼 8K 的 VR 终端了。但网络的发展实际上还没能跟上硬件的步伐。如此来看,很长时间以内,网络传输的瓶颈会始终存在。
在这方面,我们做了几个探索,一个是 QoE 驱动的视点传输。我们根据用户看的区域,传输对应的数据。这是一个比较有效的手段,已经在很多地方应用。
另一方面的研究是针对云游戏的。云游戏属于 VR 视频的一个分支,对延迟更加敏感,数据量也很大,同时用户交互行为更加复杂,很难进行动作预测。所以我们探索一种零延迟的画面预测方法,在一定程度上来解决交互延迟的问题。
声网开发者社区:一直以来,您都在研究事视频通信、网络传输相关的课题。从您的角度来看,您认为 2020 年这些方向出现了哪些值得一提的研究进展?您认为 2021 年最重要的技术趋势是什么?
张行功:从视频通信、网络传输方面,在 2020 年出现了一些比较新的场景,例如云游戏和云桌面。其本质上就是实时视频,但是技术挑战会比传统的视频更大。因为就像之前分析的,它的延时要求很苛刻,人的行为很难预测。2020 年有一些技术尝试,但是效果不是很理想。所以在 2021 年,业界还会有更多新角度的尝试来解决这些问题。
第二个就是面向 5G 以及卫星网络的研究和应用。5G 网络已经开始商用,卫星网络方面,我们已经可以看到 Elon Musk 的 StarLink 也开始提供测试服务了。所以面向新型网络的低延时传输研究也会是 2021 的热点之一。
视频传输方面。在 2020 年,机器学习、强化学习等方法更多地被用在了网络领域,包括传输层、应用层的视频通信。在 2021 年将会有更多这方面的研究,提供它的实用性和泛化能力。
最后,视频传输质量评价也是 2020 年重要的热点之一。由于现在网络视频的种类很多,包括实时视频、直播、短视频、VR 视频等,但传统上视频质量评价都是面向编码,但对传输的评价一直没有一个很好的框架。视频传输质量的监控和评价是业务的核心,包括由数据监测、质量评价到故障报警、修复的一套闭环的质量体系,将会是 2021 年被持续关注的热点之一。
评论