写点什么

实时互动场景下,音频的技术变迁与机遇

  • 2021-03-09
  • 本文字数:2669 字

    阅读完需:约 9 分钟

实时互动场景下,音频的技术变迁与机遇

本文首发于 InfoQ,由声网 Agora 开发者社区 与 InfoQ 联合策划,并由 InfoQ 审校。


音频技术中有很多细节会影响到实时互动的体验。随着技术和应用场景的变化,音频也正在与更多的学科、技术结合。在实时互动场景下,哪些因素会影响音频的体验?相比于视频技术,音频技术是否发展较慢?面向 RTC 场景,音频技术又需要作出哪些改变?......为了解答这些问题,我们采访了声网 Agora 音频体验与工程总监陈若非,请他来聊一聊在实时互动场景下音频技术的变迁与机遇。


Q:相对于研究网络架构、大前端等方面的工程师来讲,研究音频的工程师比较少。具体来讲,音频工程师都会研究哪些相关技术?


陈若非:声音是信息和情感传递的载体,所以音频相关的研究基本会围绕如何让信息和情感更好的被传递和感知理解展开的。音频领域相对专业细分,但是我们细挖一下就会发现音频相关的研究方向其实很多,涉及到的交叉学科也很广。从交互对象来说我们可以分为两类:人机交互的音频和人人交互的音频。从交互的实时性来分,又可以分成实时的交互和非实时的交互。 人机交互主要研究如何让机器更好的理解声音和生成声音,通过 ASR、MIR、TTS 等技术来实现人类希望机器完成的任务。人人交互的部分更多和人的感知系统关联,其优化目标会围绕如何让人更好的感知音频来展开。实时的人人音频交互又在此基础上提出了更多的约束条件,优化需要用更低的延时、更小的计算量和因果系统下展开。我所在的声网就主要聚焦于实时互动音频领域的研究,所以我们会从采集播放、编解码、前后处理、传输的全链路去研究如何在尽可能低的延时和计算量下提供更好的音频互动体验。

 

Q:聊技术变迁之前,首先梳理一下概念,在实时互动的场景下,哪些因素会影响音频的体验?


陈若非:实时互动音频是端到端,嘴到耳的体验,所以全链路上所有的组成部分都有可能影响音频体验。我们可以从采、播、滤、压、传五个方面去分解技术对音频体验的影响。首先说采集,不同麦克风的声学属性差异就对音频体验有决定性的影响,从拾音的距离,方向性到精度。被拾取的声音信号经过模数转换,信号采样也会造成声音的损失,采样率越高声音的细节就会保留的更好。所以一个高质量的麦克风会从源头上提供更好的音频源。类似的,一个高质量的播放设备可以更好的保留更多声音细节。然后前后处理是音频链路上非常重要的一环,大家常听到的 3A 技术都属于这个范畴,前后处理对原始采集的信号或者即将要播放的信号做二次处理,来滤除其中的干扰信号,比如回声、噪音、杂音、啸叫等,同时对目标的音频做音量和听感上的增强。另外在一些音效玩法里,我们也会通过对信号的处理实现变声、美声等特定声音效果。再说下编解码和传输,这两者是强耦合的。原理上编码的采样率和码率越高,声音的保真度就更好,听端的体验也更好。但现实中网络的带宽是有限制的,还会经常出现丢包抖动等不利情况。好的编解码算法可以通过对声学模型和信息冗余的深入理解,在相对低的码率下实现高品质的声音保留,从而保证在各种弱网情况下的稳定表现。 同时我们也需要通过开发信源信道的弱网对抗技术,在保证低延时的基础上,减少丢包抖动带来的听感影响。


Q:行业中有种看法,认为音频技术相对于视频技术,似乎发展会稍慢一些?你怎么看待目前音频技术的发展?


陈若非:技术的进步都是需求推动的。电话时代的音频技术曾经经历火热的发展,一些经典理论如线性预测、自适应滤波,很好的解决了一些基础可用的问题,很多技术到今天还在被沿用。近几十年 VOIP 的技术也得到了长足的发展,我们今天看到 VOIP 的分钟数能在通信领域占据越来越大的份额,背后也离不开音频研究人员长期的扎实工作和持续进步。音频需要较高的技术门槛,全链路的木桶效应明显,设备耦合重碎片化严重,改进主观不易被感知,这些因素都决定了音频想要出成果需要坐的住冷板凳,需要长期主义的坚持。

 

近些年 AI 技术的兴起给音频注入了新的活力,也给很多长时间不好解决的问题提供了新的思路。人机语音交互成为了一个音频领域新的热点,相关的技术也蓬勃发展,目前在识别、合成等领域都取得了长足的进步。而在最近的几年,也看到了不少 AI 技术和 RTC 领域结合的实践成果,让人看到了进一步提升音频体验的巨大空间。从外部环境来看,在看腻了千人一面的直播后,越来越多的人开始喜欢心理包袱更小,想象空间更大的音频社交,近期的行业里也开始出现新的浪潮。相信在这种内外因的结合下,会有更多的人开始研究实时互动音频的体验,也非常期待这个行业会给大家带来不一样的新体验。

 

Q:从实际来看,目前音频在实时领域还存在哪些技术挑战?


陈若非:实时互动音频领域还有很多技术挑战需要我们的攻克。我这里提两个大点。第一,碎片化。传统的手机厂商是一台台调试算法和逐一通过声学测试出厂的。如果我们要在不同设备、环境、网络条件下提供一致性的高质量音频体验,我们就需要寻找新的突破。在接下来万物互联的时代,这种需求会愈加强烈,而这方面技术的突破会带来巨大的价值。 第二,主观性。音频体验是一个非常主观的存在,每个人的感知差异和喜好也迥异。我们需要找到更好的方法来匹配这种个性化的喜好和提供更好的量化评价体系。


Q:基于你对业界、学界的观察,你认为音频技术面向 RTC 场景,接下来需要作出哪些改变?(如算法、技术的结合等)


陈若非:我认为实时互动音频的未来应该有下面三个部分。第一,AI 和信号处理的深度融合。经典的信号处理和声学模型已经能帮我们解决很多问题,当然也不少解决不好的问题。在 AI 的有效融合下,可以有效的补充传统算法的不足,在合理的代价下更好的解决我们的问题,而非简单视 AI 为灵丹妙药包治百病。第二,符合时代的评价标准。目前很多音频标准是给通讯设计的,真正如聚一堂的互动体验需要对应的评价标准,如何更好的评价互动性,沉浸感是我们需要去探索的地方。第三,真正的沉浸感和伴随感。人们开始不满足于单纯的信息交互,进一步的追求面对面的互动体验和情感伴随,而随着网络和设备条件的进一步成熟,这种未来也成为可能。音频全链路都需要升级,从声场的采集到还原,甚至增强现实,来创造出真正沉浸式伴随的体验,这也会将会是一条漫长的探索之路。我们在声网一直致力于探索这些长年存在的行业难题,也欢迎各路有想法有追求的朋友联系我,共同交流探索,共同敲开未来音频之门。


采访嘉宾介绍:


陈若非,声网 Agora 音频体验与工程总监。负责基础音频技术的架构和研发,主要研究基于模型重建的语音增强技术,对回声消除,降噪,增益控制,多麦,音效处理,丢包隐藏等语音技术有丰富经验。曾任职 YY 基础技术研发部门,担任 IEEE 权威语音期刊和会议专业 reviewer。

2021-03-09 15:132257

评论

发布
暂无评论
发现更多内容

不愧为京东内部Spring Boot全解笔记,真的是把精髓全总结出来了

Java~~~

Java 面试 Spring Boot 架构师 京东

阿里首席官珍藏,SpringCloud精通日记,血汗全在这了

Java~~~

Java 面试 微服务 Spring Cloud 架构师

华为大神珍藏版:SpringBoot全优笔记,面面俱到太全了

Java~~~

Java 面试 微服务 Spring Boot 架构师

维护数据隐私和增强竞争优势的秘密

九河云安全

一个算法“拿下”两个榜单!爱奇艺ICCV 2021论文提出人手三维重建新方法

爱奇艺技术产品团队

vr 论文 ICCV2021 高精度三维重建

FIL分币平台|FIL算力系统软件开发技术

量化系统19942438797

#区块链# fil币

面试阿里P6,过关斩将直通2面,结果3面找了个架构师来吊打我?

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

最全总结 | 聊聊 Python 数据处理全家桶(存储过程篇)

星安果

Python 数据库

为什么拥抱能源的数字未来意味着在云上全力以赴

九河云安全

云计算以及云计算周边词概念简单介绍-行云管家

行云管家

云计算 服务器 云服务

字节跳动Android面试:2021Android大厂面试知识分享

欢喜学安卓

android 程序员 面试 移动开发

Spark 架构剖析:一个任务是怎么运行的

程序员赤小豆

大数据 spark 架构

番外1. OpenCV 图像处理之图片加载与视频加载

梦想橡皮擦

8月日更

Ipfs未来价值怎么样?Ipfs值得投资吗?

区块链 分布式存储 IPFS fil IPFS未来价值

写作7堂课——【1.框架式写作】

LeifChen

框架 结构化思维 写作技巧 8月日更

第一次凡尔赛,字节跳动3面+腾讯6面一次过,谈谈我的大厂面经

Java~~~

Java 面试 微服务 多线程 架构师

开放搜索电商行业模版驱动业务增长实践

阿里云大数据AI技术

看完字节大佬的算法刷题宝典,我直接手撕了500道算法算法题

Java~~~

Java 面试 算法 二叉树 架构师

一个弱鸡管理者如何带领一支牛逼的队伍?

弱鸡管理者

安全 技术人 创新 技术人应知的创新思维模型 管理经验

【共识专栏】Quorum机制与PBFT

趣链科技

区块链 共识机制 PBFT 共识算法

一周信创舆情观察(7.26~8.1)

统小信uos

在阿里晋升3次,5年拿下P8岗位,这份pdf记录了我的整个成长过程

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

去中心化市值管理机器人开发|去中心化做市机器人

Geek_23f0c3

量化交易机器人系统开发 市值管理机器人系统开发 去中心化市值管理机器人

Linux内核分析学习路线总结(内核人员必看)

Linux服务器开发

操作系统 Linux内核 内核源码 内核开发 驱动开发

百度智能云遇到三一重机,工程机械维保有了新方案

百度大脑

人工智能 三一重工

Python RPC 不会?不妨看看这篇文章

星安果

Python RPC RPC架构

Github首次开放,一天遭狂转 50w 次!阿里内部不外传的 100 万字 Java 面试手册!

Java 程序员 架构 面试 计算机

拍乐云创始人赵加雨:沉浸式音视频加持数智化未来世界

拍乐云Pano

资深大牛带你了解源码!最新Android面试题整理

欢喜学安卓

android 程序员 面试 移动开发

镜像是什么意思?分类有哪些?

行云管家

网络安全 镜像 堡垒机 云厂商

5 分钟,快速入门 Python JWT 接口认证

星安果

Python JWT

实时互动场景下,音频的技术变迁与机遇_语言 & 开发_Jeff_InfoQ精选文章