通过语音和视频与他人在线通讯,已经逐渐成为了日常生活的一部分。为了实现这一需求,像 WebRTC 这样的实时通信框架需要高效的压缩技术和编解码器来编码(或解码)传输或存储的信号。过去几十年来,编解码器一直是媒体应用程序的重要组成部分之一,它能让消耗大量带宽的应用程序高效地传输数据,并让人们看到了随时随地进行高质量通信的希望。
也就是说,开发用于视频和音频的编解码器时,所面临的一项长期挑战就提供更高的质量、使用更少的数据并尽量降低实时通信的延迟。尽管视频看起来比音频要占用更多的带宽,但是现代视频编解码器可以达到比当今使用的某些高质量语音编解码器更低的比特率。若能结合使用低比特率的视频和语音编解码器,即使在低带宽网络中也可以提供高质量的视频通话体验。然而在过去,音频编解码器的比特率越低,语音信号的清晰度就越差,电子味也会更浓。此外,尽管有些人可以用上始终如一的高质量高速网络,但这种网络水平并没有普及。即使在网络连接良好的地区,有时也会遇到质量差、带宽低和网络连接拥塞的情况。
为了解决这一问题,我们创建了 Lyra(https://arxiv.org/abs/2102.09660),一种高质量、低比特率的语音编解码器,即使在最慢的网络上也可以用它进行语音通信。为此,我们一方面应用了传统的编解码技术,同时利用机器学习(ML)的优势和使用数千小时数据训练的模型来创建一种压缩和传输语音信号的新颖方法。
Lyra 概述
Lyra 编解码器的基本架构非常简单。它以 40 毫秒的间隔从语音中提取特征或独特的语音属性,然后将其压缩以进行传输。这些特征本身是对数梅尔声谱图,是一个代表不同频段语音能量的数字列表。由于它们是根据人类听觉响应建模的,因此传统上主要用在与感知相关的领域。另一方面,一个生成模型使用这些特征来重新创建语音信号。从这个意义上讲,Lyra 与其他传统的参数编解码器(例如 MELP)非常相似。
但是,传统的参数编解码器仅提取语音关键参数(这些参数可用于在接收端重新创建信号),结果比特率虽然很低,但通常听起来电子味很重且不自然。这些缺陷推动了新一代高质量音频生成模型的开发,这种模型不仅能够区分信号,而且还能生成全新的信号,为这一领域带来了革命性的变化。DeepMind 的 WaveNet 是这类生成模型中的排头兵,为以后的许多应用铺平了道路。此外,目前在 Duo 中使用的 WaveNetEQ(基于生成模型的丢包隐匿系统)已经展示了这种技术在实际场景中使用的途径。
Lyra 使用的新压缩方法
我们以这些模型为基准开发了一种新的模型,能够使用最少的数据来重建语音。与当今大多数流媒体和通信平台中使用的最先进波形编解码器相比,Lyra 利用这些新的自然声音生成模型的能力来保持参数编解码器的低比特率优势,同时实现较高的质量。波形编解码器的缺点是,它们需要逐个压缩并发送信号采样才能实现高质量的编码,这需要更高的比特率,并且在大多数情况下获得自然语音并不需要这么麻烦。
生成模型的一个问题是它们的计算复杂性。Lyra 使用了一个开销更低的循环生成模型(WaveRNN 的一个变体)来避免这一问题。该模型以较低的码率工作,但会并行生成不同频率范围内的多个信号,随后将其组合为所需采样率的单个输出信号。这个技巧让 Lyra 不仅可以运行在云服务器上,而且可以在中端手机上实时工作(处理延迟为 90ms,与其他传统语音编解码器相当)。然后,这个生成模型使用数千小时的语音数据来做训练和优化(像 WaveNet 一样),以准确地重新创建输入音频。
与现有编解码器的对比
自 Lyra 诞生以来,我们的任务一直是使用比特率很小的数据来提供最优质的音频。当前,免授权的开源编解码器 Opus 是基于 WebRTC 的 VOIP 应用程序中使用最广泛的编解码器,并且音频码率为 32kbps 时通常就能获得透明的语音质量,也就是说与原始音频没有显著区别。但是,虽然 Opus 可以在带宽限制更小(最低 6kbps)的环境中使用,但此时它的音频质量就会下降了。其他编解码器(Speex、MELP、AMR)能够取得与 Lyra 相当的比特率,但它们的噪音很大,声音也都是电子味。
Lyra 目前被设计为 3kbps 的码率。收听测试表明,Lyra 在这一比特率下的性能优于其他所有编解码器,并且在 8kbps 的码率上性能优于 Opus,从而将所需带宽减少了 60%以上。Lyra 可以用在带宽条件不足以提供更高比特率,且现有的低比特率编解码器无法提供足够质量的场景中。
确保公平
与任何基于 ML 的系统一样,我们必须对模型进行训练以确保其对每个人都一样有效。我们已经使用开源音频库为 Lyra 训练了数千小时的音频(其中包含 70 多种语言),然后与专家和众包听众一起验证了音频质量。Lyra 的设计目标之一是确保高质量音频体验能够普惠大众。Lyra 会在广泛的数据集上进行训练,数据集包括多种语言的语音,以确保编解码器对可能遇到的任何情况都具有稳健性。
社会影响力和我们的计划
无论是短期还是长期范畴,Lyra 这类技术的影响都是非常可观的。借助 Lyra,新兴市场中的数十亿用户可以获得高效的低比特率编解码器,从而享受比以往质量更高的音频。此外,Lyra 可以在云环境中使用,使网络条件和设备功能各异的用户能够无缝地聊天。将 Lyra 与新的视频压缩技术(例如 AV1)搭配后,即使通过 56kbps 拨号调制解调器连接到互联网的用户也可以进行视频聊天了。
Duo 已经使用 ML 来减少音频中断,并且目前正在加入 Lyra 来提高超低带宽连接上的音频通话质量和可靠性。我们将继续研究 Lyra 的性能和质量主题,以确保这一技术提供最大的可用性,还会通过 GPU 和 TPU 加速研究。我们也在研究如何使用这些技术开发低比特率的通用音频编解码器(即涵盖音乐和其他非语音用例)。
原文链接:https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html
评论