写点什么

专访张行功:2021,5G 将会倒逼传输协议、算法做出更多改进

  • 2021-03-05
  • 本文字数:3944 字

    阅读完需:约 13 分钟

专访张行功:2021,5G将会倒逼传输协议、算法做出更多改进

本文首发于 InfoQ,由声网 Agora 开发者社区 与 InfoQ 联合策划,并由 InfoQ 审校。


在 RTC 技术领域,如何兼顾实时视频传输的低延时和视频质量,以及如何评定视频传输质量,始终都是备受关注的话题。随着 5G 的商用,视频传输在协议层、应用层又面临着一些急需解决的变革。尽管不少 AI 模型在编解码、传输层已经开始落地应用,但其实 AI 模型还有很大的提升空间。我们邀请了北京大学王选计算机研究所的张行功教授,聊聊 2021 年视频传输技术、VR 视频以及 AI 模型在 RTC 领域应用,将会发生哪些改进与革新。

实时网络拥塞控制


声网开发者社区:您曾经在演讲中分享过实时网络拥塞控制的研究思路。有提到数据驱动的网络模型,用于预测网络状况,您还引入了神经网络。您认为目前网络拥塞控制算法的瓶颈是什么?引入神经网络带来哪些改变?


张行功:我们先看一下网络拥塞控制的目标是什么,尤其在实时音视频传输方面。第一个目标就是要求公平,其次就是低延时,最后是带宽使用率。


实现上述三个目标,最大的问题是无法预测其他用户行为方式,互联网是一个开放共享的网络。


另一个瓶颈就是由于存在网络延迟,无法获得最新的网络状态。


所以这些障碍会限制我们的决策,即决定应该发多少数据量,才能保证低延迟、高带宽,尤其在物理链路波动剧烈的 4G/5G 移动网络。


在一个不清楚网络状态和动态变化的网络环境下,要实现上述三个目标,那么这就是拥塞控制面临的最大挑战。传统上有很多种方法对网络带宽或者网络延时进行探测、建模,例如 AIMD、delay-based 等方法。但是由于互联网太过于复杂,尤其是互联网用户的行为不可预测,传统上用数学模型的方法来描述网络状态是已被证明不够准确的了。


基于上述原因,我们引入了神经网络和机器学习方法,进行拥塞控制研究。主要包括两部分,一部分是公平性目标,可采用数学模型,这是针对网络模型中可以抽象出来的,而且并且可以去验证和重现的特征,进行数学建模。另一部分是网络状态,尤其像现在的互联网状态,它缺乏比较明确的数学模型,那么采用统计和机器学习就是一个比较好的方法。


声网开发者社区:神经网络、深度学习,被当做工具应用到了很多 RTC 技术环节中,比如网络传输、编解码。仅视频网络传输层面,您认为 AI 模型这个工具是否已经被物尽其用了?还有哪些可以改进或发挥的空间?


张行功:在我看来,现在机器学习在网络中的使用,还处于一个非常初级的阶段。它的潜力还没有被充分挖掘出来,目前大家只是尝试用它解决一些简单问题,但有时效果并不好。


这里涉及到一个问题,什么地方适合用机器学习或 AI 模型,什么时候不适用?


其实并不是所有的问题,只要把数据给机器学习的模型,它都能处理。因为这也违背了人类对智能的定义。智能本来就分成演绎推理部分和归纳推理部分。AI 模型只能代表归纳部分,演绎推理的职能它还承担不了。


所以从这个角度来讲,我觉得机器学习的潜力远远的没有被发挥出来,尤其在网络领域,还有很多新的技术没有被发掘。


一个可能的改进方向,从目前来看,不管在网络传输还在编码部分的应用上,AI 模型一般都对数据有依赖,那么一旦换了一个数据集或换了一个场景,它的性能表现就会变差。


这其实证明了现在的机器学习算法有很大的局限性,其中最重要的一个问题就是模型在设计时,并没有针对于数据集的通用性和局限性,设计出一个泛化性能更好的,适用于不同场景的积极学习的模型。


所以,我觉得未来机器学习的发展,更会从一种模型复用和小样本学习的角度去设计,而不仅仅在神经网络本身去做优化。举个例子,我们在做传输的时候经常讲预测带宽。我们可以根据历史的数据,去预测未来的网络带宽。但是训练出来的模型,一旦换了一个网络环境,比如从 4G 到 5G,这时训练后的模型到新的环境下,泛化性就特别差。这也就是为什么一些新的机器学习的方法,会从架构上来改进。


声网开发者社区:目前大家普遍都是在 4G 网络下进行实验和应用落地。不过大家也在关注 5G。您认为 5G 商用后,视频传输相关的技术,比如从协议层面、算法层面,会需要作出哪些改进来适应这样的网络变化?


张行功:5G 出现后,会对传输层协议的要求更高,这里面主要有几个原因:首先是由于 5G 的带宽更大了,然后是由于 5G 的抖动,不管是延迟抖动还是带宽波动都会更大,已经远远超出了 4G 范畴。


这里先解释一下,为什么 5G 网络抖动会更大?通过测量发现,5G 是通过时间片方式调度频谱资源,这意味着将某个时间片分配给一个用户时,它带宽资源是独占的,但在其他时刻是得不到网络资源的。因此,如果我们从非常细的粒度,比如从某一个数据包的角度来看,它的延时波动以及数据包之间的带宽波动都会非常剧烈。5G 的理论带宽是 1GB/s,所以一旦出现某个时间片未将资源分配你的时候,那么你的带宽波动会非常大。


除了以上两点,5G 会带来边缘计算的普及,未来很多数据和服务都会放在一些边缘服务器上。边缘计算加上 5G 的整个物理带宽和延时的提升,会倒逼传输层协议的改进。不管是传统的 TCP 还是这些年大家比较关注的像 QUIC、BBR,以及一些私有协议。现在的传输层协议已经存在 40 年了,存在较大变革的需求。


另外从应用层的角度讲,比如说我们说的 ABR 或其它业务层相关的算法,随着 5G 商用后,都会在边缘节点发挥作用。因此,内容缓存算法、动态自适应、分布式视频编码和处理等,都会迁移到边缘节点上,而且对这些算法的性能和交互能力提出更高的要求。


5G 会推动 VR、AR、云游戏等实时视频应用场景的发展。从应用层的算法,包括刚刚提到的海量节点、小存储,到实时交互、边缘节点的业务层算法等都会得到改进。

VR 视频相关技术


声网开发者社区:您的研究中也有涉及到 VR 领域。您认为目前 VR 视频类应用,最急需解决的技术问题有哪些?分别有什么解决思路?


张行功:从广义来讲,VR 视频包含全景视频、AR、云游戏,因为现在很多云游戏也是基于视频的实时交互。所以这些都是属于 VR 视频的应用的体现形式。实际上其中最核心的问题有三个:


第一个问题就是它是一种实时交互式的视频。交互式视频就存在一个延时的问题,不管是我们看视频,还是去打云游戏,只要用户做一动作,或头部移动一个角度,画面就需要在 20ms 之内做出相应的反馈。否则,人的体验就会下降。


这对网络传输就提出了很高的要求。因为我们知道 20ms 是一个端到端的延时,而且是一个 round trip time,这里包含了网络、编解码、服务器处理、客户端渲染的延时。即使是未来实现边缘计算,想实现 20ms 的端到端往返延时也绝非易事。


第二个核心的问题就是人的运动预测。例如,我们看 VR 视频的时候会有头部的运动。未来会有 6DoF 的视频,我们不仅会有头部运动,还会在虚拟场景中运动。在这种情况下,我们如何去预测人的运动是一个非常重要且急需解决的问题。


运动预测主要是解决第一个延迟问题,从物理角度来讲,20ms 是一个难以达到的延时。现在业界提出的解决方案是通过预测人的运动,然后预加载数据。相当于在用户没有看到这一部分的视频画面的时候,我就把这个数据下载到本地。当用户移动到某个位置时,实际上就是从本地来获取这个画面,延时就小很多了。


但是,人的行为是有很大的随机性,所以随之而来的问题是如何去预测人的行为?比如我们观看 VR 视频时,每个人感兴趣的内容和位置可能都不一样。这是目前急需解决的一个难题。


第三个问题就是高通量数据。我们现在看到的这些 VR 视频可能还只是 4K、8K 分辨率的,它的码率大约在 100MB 级别。但是未来可能会有 16K,甚至 24K 的视频。16K 是什么概念呢?相当于我们在电视上看的 720P 平面视频。我们在电脑显示器上可观看的视角大约 30 度。如果将 720P 的视频延展为 360 度,这时候的数据量就相当于一个 16K 视频。 未来如果加入 6DoF 视频,支持用户在 VR 视频场景中自由活动,则会有更大的数据量。另外,AR、云游戏等场景也会产生越来越多的数据。


我们看到,硬件在不断发展。苹果已经可以实现单眼 8K 的 VR 终端了。但网络的发展实际上还没能跟上硬件的步伐。如此来看,很长时间以内,网络传输的瓶颈会始终存在。


在这方面,我们做了几个探索,一个是 QoE 驱动的视点传输。我们根据用户看的区域,传输对应的数据。这是一个比较有效的手段,已经在很多地方应用。


另一方面的研究是针对云游戏的。云游戏属于 VR 视频的一个分支,对延迟更加敏感,数据量也很大,同时用户交互行为更加复杂,很难进行动作预测。所以我们探索一种零延迟的画面预测方法,在一定程度上来解决交互延迟的问题。


声网开发者社区:一直以来,您都在研究事视频通信、网络传输相关的课题。从您的角度来看,您认为 2020 年这些方向出现了哪些值得一提的研究进展?您认为 2021 年最重要的技术趋势是什么?


张行功:从视频通信、网络传输方面,在 2020 年出现了一些比较新的场景,例如云游戏和云桌面。其本质上就是实时视频,但是技术挑战会比传统的视频更大。因为就像之前分析的,它的延时要求很苛刻,人的行为很难预测。2020 年有一些技术尝试,但是效果不是很理想。所以在 2021 年,业界还会有更多新角度的尝试来解决这些问题。


第二个就是面向 5G 以及卫星网络的研究和应用。5G 网络已经开始商用,卫星网络方面,我们已经可以看到 Elon Musk 的 StarLink 也开始提供测试服务了。所以面向新型网络的低延时传输研究也会是 2021 的热点之一。


视频传输方面。在 2020 年,机器学习、强化学习等方法更多地被用在了网络领域,包括传输层、应用层的视频通信。在 2021 年将会有更多这方面的研究,提供它的实用性和泛化能力。


最后,视频传输质量评价也是 2020 年重要的热点之一。由于现在网络视频的种类很多,包括实时视频、直播、短视频、VR 视频等,但传统上视频质量评价都是面向编码,但对传输的评价一直没有一个很好的框架。视频传输质量的监控和评价是业务的核心,包括由数据监测、质量评价到故障报警、修复的一套闭环的质量体系,将会是 2021 年被持续关注的热点之一。

2021-03-05 16:482090

评论

发布
暂无评论
发现更多内容

文心一言 VS 讯飞星火 VS chatgpt (27)-- 算法导论5.1 2题

福大大架构师每日一题

福大大 ChatGPT 文心一言 讯飞星火

Generative AI 新世界 | 大语言模型(LLMs)在 Amazon SageMaker 上的动手实践

亚马逊云科技 (Amazon Web Services)

机器学习

硬核Prompt赏析:AI老师长什么样?

无人之路

AI Prompt

软件测试/测试开发丨学习笔记之App自动化用例录制、结构分析

测试人

程序员 软件测试 自动化测试 测试开发 appium

生态共建丨崖山数据库系统与杉岩分布式存储系统完成兼容互认证

YashanDB

数据库

【LLM for SE】顶会ICSE-2023发布LIBRO技术,利用大模型技术进行缺陷重现,自动重现率(33%)实现业界突破

华为云PaaS服务小智

云计算 华为云

黄仁勋盛赞英特尔下一代制造工艺,有望委托代工英伟达 AI 芯片

E科讯

靠AI自动生成视频撸自媒体收益,月入5000+

派大星

ChatGPT4

生态共建丨YashanDB与金蝶软件完成兼容互认证

YashanDB

数据库

当 Serverless 遇上 AI,锁定年度最佳 CP,这场论坛满足你的好奇心

阿里巴巴云原生

阿里云 Serverless 云原生

Django笔记三十九之settings配置介绍

Hunter熊

Python django session database setting

C语言编程—字符串

芯动大师

6 月 优质更文活动

为什么双重效验锁要加volatile?

javacn.site

人脸识别图像技术的原理及其应用

来自四九城儿

嘉为蓝鲸荣登广东软件风云榜,获评新技术应用最受欢迎产品TOP10

嘉为蓝鲸

软件 新技术 应用程序

独立游戏开发:掌握成功的五大关键技巧

龙智—DevSecOps解决方案

游戏开发 独立游戏 独立游戏开发

Zilliz @ GOTC:大模型的记忆体——向量数据库的现在与未来

Zilliz

Milvus AIGC 向量数据库 zillizcloud cvpstack

Python潮流周刊#4:Python 2023 语言峰会

Python猫

Python

Code Whisperer测评体验

長歌

崖山数据库系统YCA认证,首发期限时免费!

YashanDB

数据库

WePY小程序框架如何使用

Onegun

小程序 小程序框架

军事领域关系抽取:UIE Slim最新升级版含数据标注、serving部署、模型蒸馏等教学,助力工业应用场景快速落地

汀丶人工智能

人工智能 自然语言处理 知识图谱 关系抽取 命名实体识别

2023-05-31:给定一个整数数组 A,你可以从某一起始索引出发,跳跃一定次数 在你跳跃的过程中,第 1、3、5... 次跳跃称为奇数跳跃 而第 2、4、6... 次跳跃称为偶数跳跃 你可以按以下

福大大架构师每日一题

golang 算法 rust 福大大

对线面试官-线程池(一)

派大星

面试

7 步提升私有化部署的极狐GitLab 实例安全等级

极狐GitLab

DevOps 安全 SSH DevSecOps 密钥

Photoshop 2023(ps测试版)新功能:生成填充功能介绍

Rose

Photoshop 2023下载 PS测试版下载 PS2023新功能介绍

APP出海的现状与挑战​

MobTech袤博科技

C4D必备的7个素材网站,很多爆款素材!

Finovy Cloud

C4D

深度学习进阶篇[7]:Transformer模型长输入序列、广义注意力、FAVOR+快速注意力、蛋白质序列建模实操。

汀丶人工智能

人工智能 自然语言处理 深度学习 Transformer 注意力机制

Idea 社区版创建 Web 项目

Andy

专访张行功:2021,5G将会倒逼传输协议、算法做出更多改进_架构_Jeff_InfoQ精选文章