无知觉间,你一定接触过云通信技术。
在疫情的推动下,即时通信、直播、实时音视频等技术在各行各业广泛落地。在云能力的加持下,通信行业迎来新一波发展浪潮,加速底层技术迭代升级。随着多项云通信技术广泛应用在各个场景,越来越多亟待解决的问题暴露出来。如何应对场景复杂性?云通信行业未来的发展趋势是什么?作为网易智企旗下的融合通信云服务专家,网易云信给出了答案。
InfoQ 编辑有幸在 QCon 2021 全球软件开发大会上,采访到了网易智企技术 VP 陈功老师,由他亲自为我们讲解云通信行业的核心关键点。
以下是采访的文字内容。
InfoQ:请陈老师做下自我介绍并大致地介绍下您的职业发展历程。
陈功:大家好,我是网易智企的技术 VP 陈功。我在 2008 年博士毕业,研究生阶段的主要研究方向是计算机视觉,当时接触到了很多图像、视频领域的相关技术,工作后也在这一领域延伸,先后加入过两家半导体公司,从事多媒体、音视频相关的工作。比较有幸的是,在 Intel 工作时接触了 WebRTC,算是国内最早专注于 WebRTC 的团队之一,参与到了 Intel Collaboration Suite for WebRTC 架构设计和研发,也就是开源 WebRTC 套件 OWT 的前身。后来加入了一家创业公司,以及到现在的网易云信团队,算下来已经在云通信行业深耕 6 年多的时间了。
InfoQ:请您简要介绍下网易云信的融合通信云,谈谈有哪些核心技术?
陈功:当前,云通信行业呈现出了更广范围、更深程度的融合趋势,网易云信的融合通信云也是顺应行业发展趋势,面向市场提供了丰富的云通信产品矩阵,并通过“音视频+即时通讯+其他”的融合业务模式,构建了行业核心竞争力。
在网易云信的产品中,既有传统的融合通信能力,如:短信、语音、云呼叫中心等,又具备互联网通信的能力,如:IM、RTC、直播、点播、互动白板等。通过多 SKU 的组合,打造多场景产品应用解决方案,深度赋能各行各业的企业客户。
网易云信的核心技术紧密围绕 “音视频+即时通讯+其他” 的融合和赋能,不但包括了在云通信关键技术上的多年沉淀,如:大规模分布式传输网络、高性能通信服务、高效视频编码、智能音频处理、弱网体验保障等;还包括了为客户深度赋能的场景化技术,如:智码超清技术、音频空间音效、语音/视频特效、虚拟形象等。依赖于 AI 技术(计算机视觉、机器学习)与传统算法和基础通信能力的结合,构建出“AI+”智能通信云服务平台。
InfoQ:音视频技术如今也是融合通信云主要技术之一。从行业角度出发,能否谈谈如今云通信行业概况,如今处在什么发展阶段?AI 的发展对云通信行业带来怎样的变化?
陈功:当下的云通信行业呈现出了欣欣向荣、蓬勃发展的态势,尤其在近两年疫情的助推下,让相关从业者和资本市场对行业发展产生了非常乐观的预期。我认为目前整个行业还处于高速发展的黄金阶段。5 年多前,云通信行业对很多人来说还比较陌生,那时候的行业从业者更多处于修炼内功、打磨技术的阶段。
经过这些年的技术积累和基建升级,云通信所赋能的创新场景遍地开花,行业内的服务提供商的价值也获得了广泛认可。目前云通信的应用领域相对比较集中,娱乐社交和在线教育是两个重要的场景。可以预期的是,随着 AI 技术和 5G 升级带来的更多机遇,以及沉浸式、元宇宙概念带来的巨大想象空间,行业会朝着与业务结合更深度、更紧密的方向快速发展,会看到更广范围、更多元化的应用落地,云通信将会无处不在。
AI 与云通信有着非常好的结合点,主要体现在技术和体验两个维度。
在技术层面,AI 给底层技术的加持,驱动着行业技术升级。越来越多的音视频算法寻求与 AI 的结合,如:视频超分、编码、音频降噪、场景检测等,都是典型的落地案例,“AI+音视频”能够大幅提升传统算法的质量。网易云信拥有自己的 AI 实验室,进行 AI 相关技术的前瞻性布局和研究。在今年,团队聚焦 AI 音频降噪和 AI 音乐检测方向的两篇论文也被声学顶会「第 50 届国际噪声控制工程会议」收录,获得了国际公开认可。
在体验层面,AI 技术在产品体验的升级、新鲜玩法的塑造、以及更逼真的场景营造方面有非常大的技术优势。AI 为云通信行业带来了更多、更有趣的玩法,如:AI 特效、动画合成、表情迁移等。展望元宇宙的潜在市场,AI 技术将会加速云通信更大规模的普及和应用,并为终端用户带来焕然一新的体验和感受。
InfoQ:网易云信身处行业变化中,处在什么位置?多年来的技术演进路线是什么?
陈功:在即时通讯方面,网易云信作为业内最早可以承载亿级日活的即时通讯平台,无论是日活、覆盖终端数,还是消息分发量,网易云信目前均处在行业第一的位置。
在音视频通话方面,网易云信近年来深耕音视频技术,经过多年的厚积薄发,目前也已跻身行业第一梯队。2020 年,网易云信发布的新一代音视频技术架构进行了全流程的技术升级,基于该技术架构打造的「音视频通话 2.0」融合了 AI +音视频的算法优势,为我们的企业客户提供更灵活、稳定、流畅、易用的音视频技术服务。
其他方面,网易云信提供的一站式融合通信服务,在云通信产品的覆盖度以及协同服务上也是行业内首屈一指的。在 Gartner 近期发布的《CPaaS 市场指南 (Market Guide for Communications Platform as a Service)》研究报告中,网易云信凭借自身在统一通信、5G 消息平台、低延时直播、实时音视频、基于 AI 的音视频优化,以及通信安全等方面的领先优势入选了此份报告,被列为全球代表性供应商。
技术演进路线可分为三个方向:横向开拓、纵向深入、融合创新。
横向开拓:网易云信在最初 IM 即时通讯技术能力的基础上不断演进,目前已经扩展出包括音视频通话、直播、点播、互动白板等十余种功能,并且依托于团队深厚的技术储备,还在不断丰富产品功能,扩展产品矩阵。
纵向深入:针对云通信的各项关键技术,持续投入技术的攻坚打磨,目前在全球分布式传输网络、高性能通信服务器、智码超清、自适应音频处理、弱网传输对抗等方向上取得了卓著的技术成果,保障了网易云信的核心竞争力。
融合创新:通过跨产品 SKU 的底层技术融合,展现网易云信产品矩阵的优势,并且通过“AI+音视频”的赋能,打造融合产品的竞争力。比如,通过音视频与内容安全检测的技术融合,提供了一站式安全通信解决方案;通过 RTC 与语音呼叫的能力融合,提供了通话高接通解决方案;通过 AI 与 RTC 的技术融合,提供了一站式音频/视频特效、虚拟人的解决方案等等。诸如此类,都是网易云信融合创新的体现,并且依托网易集团在 AI 方向深厚的技术积累,网易云信会一直走在创新前沿。
InfoQ:目前行业内云通信产品也比较多,行业相对繁荣,在您看来企业在选择产品时,需要着重关注哪些方面?
陈功:一方面,服务提供商的品牌和口碑是企业看重的,口碑则包括了质量是否可靠、服务是否稳定,也包括了作为服务提供商,是否足够了解客户的行业和场景。比如,客户在新场景探索过程中可能遇到的“坑”,服务提供商若能具备充足的相关经验,给予深入的指引,为客户降低接入和上线成本,这是客户乐于看到的理想状态。网易云信作为网易集团的 toB 团队,与集团内的兄弟 BU 长期保持紧密的合作共建,在游戏、娱乐、教育等多个场景拥有多年的丰富的实战经验,是非常懂行业和客户的服务提供商。
另一方面,一站式的云通信能力也很关键。客户在打造产品时,通常需要不同的云通信能力单元,如:音视频、IM、互动白板、一键登录等能力,若是娱乐社交行业的客户,可能还需要美颜、内容安全检测等。要实现这些功能,如果对接多个服务提供商非常繁琐,面对多个技术支持团队,在配合上也很低效。这种情况下,服务提供商如果能提供一站式的能力,将会是很大的优势。网易云信在产品设计上就站在了客户的视角,不但提供丰富的云通信产品矩阵,在美颜和内容安全检测方面也有自研产品,完美契合客户的终极需求。
InfoQ:与其他同类产品相比,网易云信云通信产品的技术优势是什么?
陈功:网易云信的技术优势体现在不同的维度上。
架构优势:
即时消息:高性能的 IM 服务端架构,能够支撑万人超大群、千万级聊天室、百亿级消息的 IM 业务,并且能够做到“水平可扩容、垂直可隔离”,高效支持日活过亿平台的扩容和升级。
音视频:新一代音视频架构基于最新的 WebRTC 演进,服务端通过 SFU 和 MCU 的融合,可以灵活满足通用业务服务的扩展需求。例如,支持云端的媒体处理和分析有天然的优势。客户端针对媒体和网络引擎的深度优化,在低性能设备上也能保障高清流畅的通话体验,更好的适配中低端移动设备(这是东南亚出海的痛点),也有利于在 IoT、可穿戴设备领域拓展。此外,RTC 在进行客户端架构重构之后,沉淀出相对于友商的功能扩展优势,比如:音视频主辅流功能、多房间推拉流功能等,都已在客户的真实场景得到落地验证。
基建优势:
网易云信自研了全球大规模传输网(WE-CAN),它是一个基于公共互联网的 overlay,是网易云信业务层的传输基座,一个独立于具体业务的通用传输系统。在架构设计之初,便系统性考虑了产品架构的竞争力,主动规避了其他传输网的架构缺陷,相比于其他软件自定义传输网络,在传输模式多样化及成本方面都具备显著优势。
传输模式多样化:提供多种传输模式,不只支持媒体流,还支持 IM 消息、信令,以及通用数据的传输,完美支撑了网易智企多个业务的数据传输。如:网易易盾的海外图片检测服务,已经在 WE-CAN 网络中实现了加速传输,证明了 WE-CAN 在传输模型延展性上的巨大优势。
成本优势:基于智能调度的传输分级服务,在架构策略层面形成成本优势,实现在 RTC、低延时直播、IM 业务上的成本优化。
音视频优势:
网易云信在音视频技术上厚积薄发,目前打造的技术优势包括:
弱网体验:分段 QoS 策略加上智能流控,将音视频抗丢包边界提升到 75% 以上,在带宽利用率 90% 的水平线上,可对抗 2000ms 的网络抖动。
视频体验:自研的视频质量控制(VQC)算法,结合了网络和性能自适应策略,能够动态跟踪网络指标变化,快速调整视频编码模式和参数,达到最优的画质呈现效果。并且能够根据设备性能的状态来调整部分视频算法复杂度,在保障高端设备极致体验的同时,兼容更多的终端设备。
视频画质:智码超清技术,以人眼主观体验为目标,融合网易云信自研 NE264 编码器和高性能 AI 视频超分,以及去噪、去伪影、ROI 等画质增强处理技术,通过场景智能分析和自适应参数配置,让用户在同等码率下获得更加极致的超高清视觉体验。
空间音效:网易云信基于主流的双耳 Binaural 方案,利用高阶 Ambisoics 编码、HRTF、房间建模和人工混响技术,为实时语音通信带来了真正的 3D 空间音效,具有更好的方位效果。同时支持不同耳机和适配和补偿,达到频响均衡,外化感和真实感更好。网易云信也是行业内首家支持 6DoF 空间音效的服务提供商。
融合优势:
IM/音视频与内容安全的技术融合,打造一站式安全通信方案:
通过融合网易云信和网易易盾产品推出的安全通,实现登录 1 个后台、对接 1 个系统、进行 1 次结算就能完成通信与视频+内容安全方案的完整接入,提供极致的一体化快速接入和服务体验优势。
通过检测模块前置、底层算法融合、服务混合部署等网易云信与网易易盾产品融合,极大降低了因需要内容安全检测而引入的通信费用,在成本结构上存在本质的优势。
RTC 与运营商能力融合,推出网易云信通话高接通解决方案。通过融合网易云信 RTC 和运营商能力推出的通话高接通解决方案,在产品底层进行融合,形成了以应用保活、线路融合呼叫、辅助提醒为核心的融合呼叫完整方案,实现 RTC 与线路通话的打通,帮助提升用户通话的接通率,赋能客户增收提效。
RTC 与 AI 特效的结合,打造一站式音视频特效产品。结合了网易云信 RTC 和自研 AI 美颜、贴纸、虚拟形象的技术能力,推出视频特效产品,通过音视频处理层面的深度融合,实现不同 RTC 场景下最优的特效效果和性能。
InfoQ:保证传输质量是通信行业长期课题,网易云信的自研传输网目前有什么技术进展?
陈功:网易云信自研的大规模传输网 WE-CAN 是基于公共互联网的 overlay,它是网易云信业务层的传输基座,是独立于具体业务的一个通用传输系统。
WE-CAN 的核心优势是能够在降低传输延迟、保证传输可靠性的同时降低带宽成本,同时,由于它是独立于业务的,架构上比较重视分层抽象,所以可以把基础的路由传输加速能力封装套用到不同的业务场景,适应不同的传输需求。
作为一个纯软件实现的大型分布式传输系统,WE-CAN 的核心能力是将网易云信在全球的数百个边缘节点组织起来,通过实时路由来解决任意两个边缘节点间的传输问题。对这部分网内传输质量,我们通过自研传输协议和智能路由算法,以及对节点间 QoS 策略的深度优化,达到了很好的效果,尤其在远距离或者跨国传输场景下,WE-CAN 已经可以达到或接近专线质量。
在边缘节点的分配调度上,我们也做了大量的工作,通过对历史数据和实时上报事件的聚合分析,WE-CAN 会给每一个客户端分配到最优的接入服务器,保证“最后一公里”的传输质量。
目前 WE-CAN 已经全面支撑网易云信所有业务的各种传输需求,承担起了包括 RTC 实时音视频服务器间极联转发、IM 消息中心到边缘的扩散、直播点播中低延迟场景下对 CDN 的替换、数据上报从各地收集节点到数据中心传输加速等等应用场景。
除了网易云信之外,WE-CAN 还成功对接了网易集团内部其他具有传输加速需求的团队,我们搭建了一个 HTTP 全球代理加速网络,对于具有各种 RESTful API 或者类似 HTTP 调用加速需求的业务场景都可以适用,并且在线上运行稳定,加速效果非常突出。
InfoQ:融合通信未来的进化方向是什么?可否给出一些关键词?
陈功:我认为的两个关键词分别是体验共享和无限融合。
体验共享:在各场景线上化的过程中,交流沟通的真实感是非常重要的一环,比如一起 K 歌,一起看电影等等场景。传统的线上娱乐受到技术、设备、网络等巨大限制,无法做到真正的体验共享。随着融合通信及相关技术的不断演进,在全高清、低延时、沉浸式的质量保障下,体验共享所实现的真实世界与虚拟场景的衔接,会是一个新趋势。
无限融合:融合通信的未来在于融合,这里的融合既包括了底层通信技术、交叉学科,以及相关功能组件的融合,也包括了在场景化落地过程中所需的线下与线上资源的整合,以及衍生出的在 IP 资源和版权方向上的合作。融合通信有机会从一个技术领域转变为技术生态。
评论