线上会议、在线教育、电商直播等多个场景的兴起,也使得实时互动技术从幕后走到台前,得到了更多人的关注。编解码、网络传输、计算机视觉等 RTE 相关的一系列技术也正焕发出更强的生命力。2021 年,在深度学习、5G 等技术的加持下,RTE 会进一步催生哪些可能?
声网Agora 开发者社区联合 InfoQ 共同策划,邀请了声网Agora 开发者社区中的多位技术专家,从视频传输、计算机视觉、编解码标准发展、WebRTC、机器学习、音频技术等角度,共同撰稿,一窥实时互动技术趋势。
疫情爆发至今一年多的时间里,很多行业在疫情期间都备受打击,然而也有一些行业“因祸得福”,快速增长,包括在线教育、在线诊疗、在家办公、在线买菜、在线直播等。这些在线业务行业,均要大量应用音视频直播技术,在音视频直播技术的背后有两项关键技术在支撑:实时通信技术(Real-time Communication)与实时渲染技术(Real-time Rendering)。目前二者正在与实时生成技术相结合,为我们带来更好的实时沟通体验。
实时视频通信已然成为当前互联网应用的亮点。特别在这疫情期间,全球都在“被隔离”,无法开展线下活动,更加迫切的需要以实时视频通信为技术支撑的各种虚拟线上交流。在可见的数年内,稳定高质量的互联网实时视频通信是各行各业的迫切需求,协同复工复产,帮助经济恢复;当用户习惯逐渐养成,实时视频通信又将成为生产生活的基本配置。
WebRTC 在今年 1 月被 W3C 和 IETF 发布为正式标准。从开源至今,十年的时间,倾注了众多开发者的贡献。本文由 Google WebRTC 产品经理 Huib Kleinhout 基于在由声网举办的 RTE 大会上的分享汇总整理,并增加了其近期对于 WebRTC 前景的看法。
在 RTC 技术领域,如何兼顾实时视频传输的低延时和视频质量,以及如何评定视频传输质量,始终都是备受关注的话题。随着 5G 的商用,视频传输在协议层、应用层又面临着一些急需解决的变革。尽管不少 AI 模型在编解码、传输层已经开始落地应用,但其实 AI 模型还有很大的提升空间。我们邀请了北京大学王选计算机研究所的张行功教授,聊聊 2021 年视频传输技术、VR 视频以及 AI 模型在 RTC 领域应用,将会发生哪些改进与革新。
2018 年 6 月,AOM 联盟(Alliance for Open Media,开放媒体联盟)发布了新一代视频编码标准——AV1。
音频技术中有很多细节会影响到实时互动的体验。随着技术和应用场景的变化,音频也正在与更多的学科、技术结合。