Qcon 上海站 2022 年大会在上海降温前的最后一个周末落下了帷幕。
近两年,随着音视频行业的快速发展,RTC 相关的话题在 QCon 的比重也逐步上升。本次 QCon 除了腾讯云音视频、网易智企两家熟悉的身影,火山引擎 RTC 也首次以专场的形式亮相,并为观众带来了 RTC 与业务增长、用户体验优化、特效协同、全球化架构四个主题的技术分享,现场一度座无虚席,甚至连门口和过道都挤满了观众。
火山引擎 RTC 专场以《实时音视频技术在抖音上的深度磨砺》为主题
火山引擎 RTC 的破圈之道
2021 年,字节跳动正式推出云服务——火山引擎,并发布面向体验的视频云服务,覆盖视频直播、点播、实时音视频、云游戏和云渲染等多个场景所需的核心中台、产品及解决方案。2022 年下半年,快手正式推出“ StreamLake ”视频云品牌,主要聚焦“音视频 + AI ”。两家互联网大厂的接连入局,让原本就已经硝烟弥漫的视频云江湖厮杀得越发激烈,特别是在 RTC 领域,前有声网 Agora、网易云信等垂直 PaaS 玩家,后有阿里云、腾讯云、华为云等老牌云计算平台,字节、快手以自家产品技术中台 ToB 的方式入局,让这条视频云新赛道“卷”上了一个新台阶。
火山引擎 RTC 凭什么卷?在本次专场分享中,火山引擎 RTC 传达了它的破圈门道:从业务视角出发,持续在对业务有增长的技术上进行打磨和沉淀。
作为偏底层的音视频服务,RTC 和应用的业务表现似乎没有什么关系,然而,火山引擎 RTC 通过大量的 A/B test 发现,RTC 的表现会对业务的增长有着不小的影响。在连麦场景,当建联越快、建联成功率越高、主播画面越清晰、卡顿越低,人均的连麦时长、看播人数、打赏金额就会越多。换句话说,这几个指标是连麦场景的核心关注指标,RTC 需要更关注这几个指标的迭代优化。
目前,火山引擎 RTC 为抖音连麦提供的建联信令 200ms 达到率为 98.6%,端到端延时平均 51ms,首帧延时控制在 100-200ms 之间
新玩法为业务带来了增长,也为 RTC 带来了挑战,当功能越来越复杂,性能消耗越来越大,如何在保证用户体验的同时降低性能消耗,以覆盖更多中低端机型,降低用户互动的准入门槛?在边聊边看、边聊边玩、在线唱 K 等场景中,当人声、媒体声、噪声混在一起,用户音频体验如何保证?在和业务方打磨的过程中,火山引擎 RTC 在全链路路径上不放过每一个可优化的细节,并通过与美颜、播放器、深度学习算法等技术的协同优化,以及与线上机型、声卡设备的全量适配,为所有用户带去一致的、高质量的音视频互动体验。
火山引擎 RTC 支持抖音世界杯“边聊边看”功能,利用“音频托管”,避免了直播解说音频和用户聊天音频的回声效果,同时,当有用户说话时,解说的音量会自动“闪避”压低,确保用户聊天内容被清楚听到
至今无统一标准,用户体验该如何衡量
一直以来,字节跳动都以“数据驱动增长”和“全链路的数据体系构建”作为和其他互联网厂商的能力区别之一,火山引擎 RTC 把这套方法论也用到了“衡量用户体验”上。
衡量用户体验不是一件容易的事,至今业内也未形成统一的标准。专场的第二部分是关于数据驱动的 RTC 体验优化,第一件事就是介绍如何把 QoS 指标定义准确,让它能够真实地反映用户体验。火山引擎在定义 QoS 指标时做了三个“对齐”——对齐最小用户行为粒度、对齐最小用户感受的阈值、以及在计算时对齐用户行为和反馈,前两个对齐让 QoS 指标更严苛、灵敏,后者则可以消除幸存者偏差,让 QoS 指标尽可能的客观、透明,可验证性更强。
以“首帧发送成功率”为例,火山引擎 RTC 不仅关注用户进房瞬间的首帧成功率,也关注每次关闭 / 打开摄像头、关闭 / 打开麦克风的首帧成功率
通过优化 QoS 指标可以优化 QoE,进而影响业务指标。然而,总有一些用户体验不好的问题落在 QoS 指标之外,比如无声、回声、模糊等异常问题,它们很难通过标准的 QoS 指标来监控,排查起来很困难——这可能是业务最大的痛了,又要解决用户体验,又不知从何处下手。
火山引擎 RTC 基于抖音集团产品、每天 3 万 + 的用户的真实评价,提炼出这些反馈背后的数据特征,并通过一系列校准和验证,建立了一个超大的“异常特征库”——以后一旦用户埋点数据命中异常特征库的规则,就可以认为这个用户很可能遇到了历史用户反馈过的异常问题,因此可以非常快地定位问题根因并及时处理,这对于处理那些无法用 QoS 监控的 QoE 问题有非常大的价值。
以“无声”为例,火山引擎 RTC 将“无声”问了拆解成“听不到对方声音”(上行无声)和“对方听不到我声音”(下行无声)两类,总结了 mic 被占用、声道选择错误、播放帧率异常等 30+ 归因
一方面,通过 QoE 来去验证和打磨 QoS 指标,让 RTC 的 QoS 指标能够更真实地反映用户的体验,同时找到技术优化的最佳路径;一方面,建立业内最大的“异常特征库”来处理 QoS 无法覆盖的 QoE 问题,这是火山引擎 RTC 独一无二的数据分析方法论和实践经验。
端云协同,1+1 如何大于 2
除了 RTC,专场还邀请到音视频特效负责人来分享抖音集团在做“极致”美颜特效过程中的沉淀和思考。
音视频场景离不开美颜、滤镜、贴纸等特效的使用,AI 特效技术在视频云业务中是不可或缺的重要能力。今年 7 月,火山引擎在 2022 火山引擎 FORCE 原动力大会上发布的音视频云端一体 veVOS 便是整合了视频直播、实时音视频、智能视频创作、视频点播、智能美化特效、智能音频美化等音视频能力的一站式解决方案。
抖音画质,特别是美颜,名声在外,如何让 RTC 和美颜特效算法做到真正协同,发挥最强效果,同时尽可能优化这两个“性能消耗大户”叠加后的能耗,让高质量的互动特效可以在更多手机,特别是中低端手机上跑起来,是视频云和特效一起在努力做的事。
“有一些客户会认为画质是美颜引起的,我用的美颜和抖音一样,就可以有和抖音一样的完整流程体验了”。实际上,画质并不仅仅依赖美颜一个环节,音视频采集、编解码、算法、视频云架构、播放,这些过程中的组件都对画质的整体链路负责,正如讲师所说,“我们非常认真的去对待、优化画质的每一方面,希望用户在最后使用时能对这个产品有更好的认同度”。
通过一份”剪映与同类产品的画质评测报告”,讲师和观众介绍画质优化的价值
出海或将成为 RTC 的必选项?
这几年,国内视频云市场增长稍显乏力,而各类优秀出海应用层出不穷,“出海”也因此成为了视频云厂商寻找增量市场的重要方向,声网、腾讯云音视频等都在不断加快海外布局的脚步。专场的最后一个分享主题是关于 RTC 全球化架构设计,火山引擎通过多中心网络架构、边缘下沉、媒体 - 信令统一接入等关键架构设计,来保证媒体与信令的实时性和同步性。不难想象,有着全球实时传输网络架构的基础和诸多产品的打磨沉淀,火山引擎 RTC 在应对海外参差的网络基建、复杂的运营商、繁杂海量的机型等问题时,也能表现得一如既往的出色。
讲师在介绍 RTC 媒体全球化架构设计要点
IDC 在《超视频时代视频云演进趋势》白皮书提出,超视频时代用户的三大核心需求是:更加高清、更加交互、更加沉浸。当我们在抖音上看着 4K 超高清的画面,为梅西的贴地斩和朋友一起欢呼时,谁能想到,几年前,我们不得不牺牲清晰度来观看一场流畅的赛事直播,同时还要忍受“对面已然进球欢呼,而我还在屏气流汗”的尴尬。RTC 赛道“众人拾柴火焰高”的局面将推动迎来音视频玩法和体验的新时代,至于谁能笑到最后,就看谁真正掌握了业务需求和破解密码。
评论