随着 5G 的逐步落地,几乎每个人都相信,随时可用、高清、流畅的音视频通话即将到来。同时,我们看到,实时互动技术催生的“爆款”、风口和实用场景增长迅猛,比如之前的狼人杀、视频社交、互动连麦直播,过去一年还有在线抓娃娃、HQ 直播答题、连麦小游戏,同时还有金融、可穿戴、机器人、电商等行业应用场景。
但是,你知道这背后实时互动技术到底发展到了什么阶段,正在攻克哪些技术上的难关呢? 从音视频角度来看,决定音视频通话质量的,一个是网络,另一个是编解码。本文将从这两个角度对技术发展趋势进行详细剖析和解读,并将对实时互动技术催生的创新场景角度进行介绍。
软件定义网络提升跨网实时传输质量
网络面临的主要问题一个是基础建设,另一个是跨网通信,带宽提升、5G 落地可以帮我们解决基础设施建设的问题,但跨网通信仍然是一个问题。
这里的跨网通信障碍在行业人士眼里指的是“四跨”,是指跨国、跨运营商、跨地域、跨时段的网络传输质量存在波动的问题。互联网从业者则提出一种覆盖网络(overlay network)技术来解决这个问题,其最重要的实现就是 VoIP。近年来,随着直播的火热,实时音视频对网络低延迟的要求又提升了一个层次,随之而来的是 SD-RTN™解决方案,它通过 SDN+UDP 技术,能够显著的降低延迟,减少丢包,进而改善通信质量。这方面最新的进展则是融合 SD-RTN™,以共享方式搭建 SD-RTN™,可以降低建设 SD-RTN™的成本。
声网的 SD-RTN™就是当前最新实时网络技术的一个代表,从官网的性能测试数据可以看到,它在跨国、跨洲等情况下比传统 P2P 网络延迟降低了 50% 左右。
下一代编解码标准仍处战国时代
在编解码方面,我们请教了声网 Agora 首席科学家钟声老师,他分别在美国博通公司、海信集团芯片公司、声网公司等主要从事图像处理、图像压缩、模式识别和计算机视觉算法以及芯片架构设计的研究,在美国和中国拥有多项专利,并且曾是标准组织 MPEG/JVT (H.264) 与 INCITS 主要成员,可以说是编解码方面的权威。
今年上半年,在音视频编解码领域发生了一件大事,就是 AOM 联盟发布了 AV1 标准的 1.0 版,其执行董事兼创始董事会成员 Gabe Frost 表示,桌面浏览器会在今年就开始支持 AV1,到 2020 年几乎所有新型硬件都会支持 AV1. 这对 HEVC/H.265 编解码形成了强劲的挑战。
钟声表示,AV1 视频编码比 H.265 标准能够进一步降低 30% 左右的码率,但其编码复杂性也高出几十倍甚至更多。可以预测其会先在 on-demand 的视频收看中应用,比如 NetFlix、Youtube、Amazon 等可能最先推出 AV1 格式的高清、超高清电影,而且接收端也要有相应的芯片解码支持。AV1 在 RTC 中的应用也会依赖于芯片对 AV1 编解码的支持,尤其是高效的编码器复杂度较高。NetFlix、Youtube、Amazon、Apple 等公司的大力推进很可能会促使芯片公司也加快其主流手机、电视、PC 机芯片对 AV1 编解码的支持。
下一代的编解码标准仍然处在战国时代,其中大部分标准首要考虑的就是对 RTC 流媒体播放的支持,特别是抗丢包的支持。钟声介绍说,声网也自研了新一代音频编码算法 Agora SOLO™,主要是为了增强在实时互联网上传输音频信号时对网络丢包的对抗能力而设计的。公共互联网通常会因传输线路拥堵、延时过大等原因导致数据丢失,SOLO™的音频压缩编码算法是针对网络的这个特性来设计的。他们测试的结果表明其能达到对抗 70% 的抗丢包率。适用基于互联网的实时音视频通信、直播等应用。
RTC 快速发展的本质是实时互动需求逐渐强烈
将网络和编解码、音视频采集等等整合起来的代表技术就是 WebRTC,近年来,随着实时互动需求和技术的发展,RTC 成为 WebRTC 技术的延伸和补充。RTC 在网络、编解码和音视频采集领域都有重要的技术突破。另外,上半年斯坦福大学的实验室还发布了将网络和编解码整合起来的新一代通信技术 Satisfy,在这方面未来我们仍然有提升的空间。
在声网 Agora 创始人 &CEO 赵斌看来,RTC 技术快速发展的本质是人类对“实时”与“互动”的需求逐渐强烈。伴随着多个垂直领域的场景创新和深度应用,RTC 将成为全球最受关注的实用技术之一。RTC 已经在很多行业领域持续输出爆款,比如直播、社交、游戏、教育等,以社交为例,声网支撑了全球 80% 的社交直播平台。对于 RTC 技术催生的各类应用场景的发展情况,赵斌也进行了介绍。
“吃鸡”的语音对讲到直播连麦、直播答题组队开黑,狼人杀,再到最近有望成为风口的后狼人杀产品“剧本杀”,都是已经被市场印证过的实时通信的应用场景。“休闲类小游戏”、“竞技类游戏”的社交性需求都很强,需要实时语音增强社交属性,进而提升玩家的游戏时长和用户粘性。
同时,游戏、社交、直播正在发生更大的融合,并且出现了很多新的场景,比如对战连麦小游戏、互动视频电商等独特品类。
而当下火热的人工智能也可以和实时音视频结合起来,未来几年互联网实时视频传输会有十倍以上的增长,人工智能可以用来提升用户对音视频内容消费的体验。机器学习如何有效地帮助达到极低延时、极高流畅度、极高画质以及高效的运维服务值得深入的研究。这也是声网目前最关注的研究方向。
结束语
2018 RTC 实时互联网大会即将开始,据赵斌介绍,此次大会上会公布 RTC 和 AI 结合的一些技术进步,也会在编解码方面有更多的技术上的突破。如果你想了解以上技术细节,还想了解更多嘉宾精彩分享,快来点击阅读原文或者扫描下方二维码预定专属大会门票,您将会听到来自 Google、声网、WebRTC、Twitch、新浪微博、华为、腾讯、Cocos、陌陌、花椒直播、VIPKID、Bilibili、沪江、招商银行等知名互联网公司的技术领袖、音视频技术大咖、产品创新专家,以及来自亚洲各地区的 2500 名开发者,将共同与您交流分享。
评论