写点什么

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了

  • 2019-11-08
  • 本文字数:3377 字

    阅读完需:约 11 分钟

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了

“我们是全世界第一家真正把实时音视频能力做成简单易用的 API,开放给开发者和合作公司来使用。我们在这方面所做的努力,也在过去每一年的 RTC 大会里逐步辐射给互联网和实时互联网行业的参与者,给大家提供更多的服务。”这是声网 Agora CEO 赵斌在 10 月 24 日声网品牌发布会上的一句话。


而这句话的底气正是来自整个声网技术团队对实时音视频技术 6 年的坚持。RTC 大会的第五年圆满落幕,随着 AI、5G 等新技术的兴起,有更多的未知和挑战在触动技术人的心弦。InfoQ 记者在 RTC 大会期间采访到声网首席科学家钟声,听他讲述实时音视频技术背后的故事。

“实时交互是我们与生俱来的本能和需求”

钟声提到,RTC 的核心就是把用户的体验做到最好,其中最关键的是用先进的算法实现音视频处理和传输不卡不糊不延时。所以,算法的先进性是核心竞争力。“声网近一年来在研发下一代实时编码传输技术,其中部分已经完成,一些客户已经开始试用。下一代实时传输技术可以让视频在极端网络条件下,甚至在 80% 丢包的情况下,还能实现低延时下比较流畅地传输,全面提升视频传输在各种网络条件下的鲁棒性。”


随着视频业务的增长,越来越多的客户或用户在享用高清、甚至 4K 的内容和服务。这对网络带宽的压力非常大,导致经常会出现拥堵的问题。那么,如何在保证视频质量的情况下,还可以取得额外 30% 甚至更多的压缩?


钟声提到,在视频编码和传输的过程中,在低延时的情况下,有效对抗 80% 的网络丢包率十分考验公司的技术实力。“声网新一代技术可以做到在 80% 的丢包环境下保障视频流畅。在提升视频图像质量和编码效率方面,利用人工智能的深度学习算法可以取得额外 30% 的编码效率的提升,而不牺牲视频质量。”

声网 1.0——>声网 2.0

钟声提到,“我是 2017 年年底来到声网,主要任务就是把实时音视频技术从 1.0 提升到 2.0。”以视频技术为例,当一个图象采集进来之后,首先要做前处理,比如降噪、美颜、加贴纸、风格转换等操作,这是第一步。接下来要做压缩和编码,就是将原始的视频数据压缩后上传至网上。压缩的诉求就是把数据压得越小越好,同时还需要让画质的损失控制在人们可接受的程度,并且对传输友好。互联网是有带宽制约的,端到端各节点上也会出现不理想的条件,因此经常会出现拥堵或丢包的情况,这就要求编码和传输的技术能对抗丢包,对抗网络拥堵。要做到这一点,需要传输算法和编码算法的结合。在数据传输到云端的过程中,要找到一条路径可以快速稳定地传输到另一方,这是基本诉求。在接收端接收到信息后,要做解码和后处理,后处理就需要考虑到图像质量的提升,以及一些丢包隐藏技术的使用,最终呈现出让用户感觉很舒适的视频。


声网的第一代算法相对比较朴素,搭建了一套从前端到后端的架构体系。“我加入后的第一个任务,就是识别各环节上的不足或者需要改进的和可以改进的地方,从而设计出使整体水平跃升一个台阶的关键技术。这个过程中,我们提出和设计出了一系列可感知、可衡量的具体改进方法,和团队在前处理、编解码、传输、后处理上都设计出了一些有效的新算法和新架构。其中,一些创新的深度学习和机器学习算法也带来了可观的效果。”


实际环境中的实时传输会出现各种状况。钟声提到,而用户对于音视频体验的优化需求是无止境的,出现任何问题,不要奢求用户会理解或容忍,而是要主动想办法去解决,把优质体验率提升到 90%,再提升到 99%、99.9% 等,做无止境的努力。

5G 到来,RTC 会如何发展?

实时互动音视频行业将有 40 多亿美元的市场空间,整个行业的成长与发展空间都处于良好态势。未来,在更多音视频服务提供商的推动下,虚拟世界将与现实世界不断融合,让世界实时互动仅在毫秒间。


5G 是一个慢慢发展的过程,离真正普及还有一段距离,并且在很长时间里,将是 5G、4G、甚至还有 3G、2G 并存的情况。钟声解释:“在一定时间范围内,5G 的新应用会带来一些比较突出的问题,比如 5G/4G 切换不自然和拥塞。现在实时互动传输 720P 视频,会觉得这已经是很高的质量了。等到 5G 之后,4K/8K 的内容会很多。这就导致带宽会被快速地占掉,进而会出现拥塞、延时、丢包等问题。”


在未来,RTC 服务的界限会变得越来越模糊,多种技术的结合也会变得越来越普遍。在 4G 时代,解决丢包问题是声网在 RTC 领域拥有卓越表现的关键。随着 5G 的到来,带宽只是其中一个环节,数据传输依旧面临与 4G 时代同样的问题。声网除了继续优化传输质量之外,还将与 VR、AR、AI 技术相结合,拓宽使用场景,在 AI 教育、工业智能制造等领域持续发力。


5G 的传输速度对于 RTC 来说是特别必要的吗?


钟声解释,这里面其实是用户的内容消费趋势和心理在起作用。当你体验过更好质量的东西之后,你就很难退回到之前的状态了。举例来说,很多年前大家看 VCD 看得很开心,后来 DVD 来了,没人看 VCD 了。再后来高清的设备出现后 ,没有人看 DVD 了。现在屏幕上每秒 15 帧,仔细看其实是可以看的到视频是抖动的,因为不够平滑。一些大型的直播或音乐会、体育赛事等,都是需要至少每秒 60 帧。“目前我们夸耀的音视频质量,可能在下一代看来,是不可接受的。”

超分辨率等技术的发展空间


图像超分辨率越来越成为计算机视觉的一个热点,之所以火起来是因为深度神经网络大大改进了图像超分辨率的效果,实际应用希望超分辨率能成为降低越来越高的图像、视频数据存储和传输成本的新方向。


什么是图像的超分辨率技术?


简单来说,就是将一张或多张分辨率较低的图像,通过一定的技术手段,生成一张或多张分辨率高的图像。举例来说,在监控领域,通过监控画面想看清嫌疑人的脸,这个放大的过程,其实没有那么简单,需要通过超分辨率重建技术放大选定区域内的像素,形成清晰的图像。


超分辨率是计算机视觉里比较底层的一个问题,得益于深度学习的算法,尤其是近几年生成对抗网络的兴起,能够根据内容假想出一些东西来。比如说一片草坪,有可能生成一些草尖,这些草尖本来是没有的,是根据人的视觉感受假想出来的。这就不是在原来的频率上做一些调整,而是新增加了一些频率。钟声提到,“这是很有挑战的一件事。可能会有一些公司在服务端可以实现,比如做离线处理。但声网追求的是实时处理,这个要求更高。” 声网最新的 SDK 目前已经实现了在某些移动设备上 360P 到 720P 的实时超分算法。


另外,声网目前已经利用深度学习技术做基于感知的压缩算法,有力地提高了视频的压缩率。其最新的 SDK 也已经集成了这个算法。


2020 RTC 未完待续在接受采访时,钟声提到:“作为一家技术公司,只有先进的技术才可以使得我们保持竞争力。在人工智能和 5G 来临的时代,利用先进的技术让实时交互的本能和需求在虚拟的世界得以保持。这是我们一直在追求的事情。”


2020 年,声网的整个技术体系还会升级,在不卡不糊不延时方面将继续优化。另外,AI 将是声网另外一个重点发力方向,“我们已经用 AI 解决了很多问题,未来还会做视频风格转换,做分割,做情感计算或视频理解;在音频方面也会有风格转换、带宽拓展,做自然语言理解、翻译,做数据挖掘等,使人机交互或人与人之间的交互更自然、更高效。比如可以提供自动翻译不同语言的功能,这样人与人之间就可以无障碍地沟通。如果能够提供一个办法让机器理解人,那么人机交互也会变得自然和有效。”


举个例子,在教学的时候,老师可以通过 AI 脸部识别,及时了解学生是否专心听讲,通过学生的表情、状态判断其对于内容的感兴趣程度。再比如,对于许许多多的留守儿童,也能远程关爱孩子们,这也是教育大背景下的一种人文关怀。


5G 来了,带来了很多的商业机会、商业模式,比如金融可以通过视频实时处理来办理业务,不需要再到营业厅去等候;比如保险定损,一个小事故通过视频保安就定损了。未来类似这样的应用会越来越多。声网将会先主要解决在 5G 场景下可能存在的一些问题:因为 5G 和 4G 是长期共存的,那么它们之间的切换就会很频繁,只为 5G 打造的应用是没有自适应的切换能力,即便是在纯 5G 时代,5G 信号覆盖很好的时候,实现类似于 360 度的 VR 也是比较有挑战的,因为它需要整个从端上,从边缘到云,到网络的巨大升级,在算法层面也要求用更加聪明的算法,去降低成本,进而承载新业务。“而这些,都需要我们和业界同仁一起去攻克。”


正如钟声在采访结束时提到的:“生逢 AI 和 5G 交叠的时代,有很多未知和挑战,作为技术人员,我们已经等不及要去创造更好的技术了。”



2019-11-08 13:493649
用户头像

发布了 124 篇内容, 共 45.9 次阅读, 收获喜欢 176 次。

关注

评论 1 条评论

发布
用户头像
RTC大会的第五年,声网还在坚持技术布道,每一年都有惊喜。正如钟声在接受采访的时候提到,每年大会立下了目标,明年再看实现了没有。
2019-11-08 11:22
回复
没有更多了
发现更多内容

anyRTC视频连麦demo上线啦!

anyRTC开发者

音视频 WebRTC 直播 视频直播 直播连麦

百度工程师手把手教你实现代码规范检测工具

百度开发者中心

百度 代码规范

ONLYOFFICE-基本组成及工作原理

一个需求

onlyoffice

趣谈Java类加载器

程序猿阿星

Java ClassLoader 类加载器

基于 BDD 理论的 Nebula 集成测试框架重构(下篇)

NebulaGraph

分布式数据库 测试 图数据库 BDD

GaussDB(for Redis)揭秘:Redis存算分离架构最全解析

华为云开发者联盟

redis 华为云 GaussDB(for Redis) 存算分离架构 中国系统架构师大会SACC

秀出天际的SpringBoot笔记,让开发像搭积木一样简单

我看 JAVA 之 线程同步(下)

awen

Java synchronized JOL 锁升级

UC生态系统APP开发详情

推荐一个MySQL宝藏网站

Simon

MySQL 网站

react native实践总结与思考

碗盆

android 跨平台 React Native

项目案例--吃货联盟

加百利

Java 项目 案例 6月日更

【全球软件大会】华为前端工程师分享:华为云官网的智能化实践

华为云开发者联盟

算法 智能化 华为云官网 全球软件大会 内容分发

内蒙古公安重点人员管控研判平台建设方案

AI框架中图层IR的分析

华为云开发者联盟

mindspore IR

35K成功入职:蚂蚁金服面试Java后端经历!「含面试题+答案」

Java 编程 程序员 架构 面试

智安小区建设,智慧安防小区改造建设方案

2021Android高级面试题及答案,Android篇

欢喜学安卓

android 程序员 面试 移动开发

圆梦腾讯之路!6面阿里、5面字节、4面腾讯,终斩腾讯Offer

Java 编程 架构 面试

区块链技术如何赋能医学成像?

CECBC

泪目!跳槽太不容易,蚂蚁金服三轮面试,四个小时灵魂拷问

Java 面试

在C++中,你真的会用new吗?

华为云开发者联盟

c++ 内存 new new operator operator new

浪潮云说丨浪潮云智能对话,想你所想,无限畅聊

测量电压调节器输出纹波和开关瞬变的方法

不脱发的程序猿

硬件研发 输出纹波测量 开关瞬变测量 电源测试 测量电压调节器

7月日更,红心向党,党员入驻,即送马克杯~

InfoQ写作社区官方

7月日更 热门活动

Dapr:我不是Service Mesh!我只是长得很像

中原银行

云原生 Service Mesh istio Multi-Architecture dapr

百度关于EMP的探索:落地生产可用的微前端架构

百度Geek说

Test

bobcatzoo

扩展ADO.net实现对象化CRUD(.net core/framework)

Spook

.net ORM ado

2021Android高级进阶学习资料,已拿意向书!

欢喜学安卓

android 程序员 面试 移动开发

千亿级数据迁移 mongodb 成本节省及性能优化实践(附性能对比质疑解答)

杨亚洲(专注MongoDB及高性能中间件)

MySQL 数据库 mongodb 架构 分布式数据库mongodb

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了_架构_关贺宇_InfoQ精选文章