本文最初发表于 Africa Post Online 网站,经网站授权,InfoQ 中文站翻译并分享。
Respeecher 是乌克兰一家人工智能初创企业,该公司在语音到语音的语音合成领域有很深的造诣,为我们介绍了 2021 年机器学习语音合成的指南:从文本到语音发展为语音到语音,即声音克隆的语音合成。
每天,我们都会产生 2.5 EB 字节的数据,并且这个速度还在持续增长。近两年来,我们创造了有史以来90% 的数据。这个世界充满了数据,所以人们需要创建一个系统来组织所有的信息量。
这些系统发展到越来越复杂的阶段,最终已成为不可或缺的东西。下面我们来看一下从机器学习到语音合成的演变历程。
机器学习:新时代已经开始
你在 Youtube 上获得的视频建议,你在 Pinterest 上看到的匹配图片,你在谷歌上输入关键词时得到的结果,你的社交媒体 Feed 流或你的语音助手 Siri 等等,都是机器学习的日常应用。没有机器学习我们能活下去吗?能,但是我们会放弃人工智能给我们带来的很多便利。为什么我们要这么做呢?
这基本上是一个简单的过程:Facebook 或 YouTube 这样的平台收集关于我们和我们偏好的数据,并且利用机器学习系统,它们能够非常准确地预测你接下来想要接收的信息,这样它们就可以提供准确的信息。
以类似的方式,你的麦克风记录下你的语音命令,将其发送到相应的服务,然后你收到来自 Alexa 或 Siri 等语音助手的相关响应,返回到你的设备。语音助手通过机器学习,学会了如何以令人满意的方式作出响应,而不需要学习如何使用它们得到的数据。
长话短说,机器学习在我们的行为和偏好中找到了模式,并将其应用于我们下一个请求或需要。
机器学习向语音合成的快速发展
显然,机器学习并非总是如此先进。直到 20 世纪 50 年代,统计方法才得以发现和完善。50 年代以后,为了进行第一批机器学习研究,人们开发出了一系列简单的算法。
60 年代,随着贝叶斯方法和概率推理技术的应用,机器学习取得了一定的发展势头。但机器学习的有效性在 70 年代遭到了质疑,那就是我们现在所说的时期:“人工智能的冬天”。
80 年代对反向传播进行的新研究幸运地导致了机器学习研究方法的复苏。在 90 年代,这种方法主要是数据驱动,而非随后几十年来被使用的知识驱动。人们创建了能分析大量数据并从结果中学习的程序。支持向量机(SVM)和递归神经网络(RNN)得到了广泛的应用。
如今,我们对深度学习功能变得如此准确感到敬畏,我们生活中有很大一部分受到软件和应用的影响,它们使用语音合成、支持向量聚类、核方法以及监督学习和无监督学习的机器学习方法。
为何对机器学习如此大惊小怪?
机器学习也许是自微芯片以来最伟大的技术革新。只要我们学会运用它的力量,就会进入一个新的科技时代。
自动驾驶汽车?数字个人助理?智能家居?通过交通预测更容易通勤?电子邮件过滤?搜索引擎结果提炼?在线欺诈检测?真让你说着了!
机器学习最重要的一点是,它可以提高我们的业务、日程安排、健康和生活质量。假如我们能让我们的机器进行分析、测试,并最终学习,它们就能教会我们怎样生活得更好、更快乐。
当今机器学习技术的一个主要应用就是人工生成人类声音,即语音合成。
通过机器学习进行语音合成
任何文本都可以通过语音合成器转换成语音。这就是所谓的文本到语音。这种系统包括两个部分:前端对每个单词进行语音转写,并将文本分成短语、从句和句子;后端(合成器)将符号化语言表示转换成语音。
语音合成器越好,它与人声的相似性就越高。比这还要好的是,我们有语音到语音的合成器。当我们需要时,只要有人类声音的样本,该系统就能准确地再现出来。根据这种简单的声音样本,系统可以产生任何话语。人耳无法分辨出原始声音和合成声音。
2020 年机器学习语音合成指南
很可能,你已经经历了不止一次的语音合成:著名的虚拟个人助理 Siri、谷歌 Home 以及各种各样的聊天机器人。它们是如何以如此人性化的方式与我们对话的呢?下面来分析这一过程:
1. 连接方法
这是一种广泛使用的语音合成技术。首先,我们需要有一个相当大的数据库,其中包含预先录制的语音序列;其次,我们将它们连接成一个全新的、可听的语音。这一方法的局限性是很难扩展(每当我们需要不同风格的语音时,都需要新的数据集)和机器人声音(最终合成产品在自然人类声音方面缺乏一致性)。
2. 参数化方法
参数化模型的使用是由于上述方法难以进行扩展处理所致。利用该模型,我们可以通过输入定义来控制语音生成。
参数化模型主要研究声学特性的生成,通过声码器把输入转换成声音。在我们需要时,录制的人类声音会经过一组参数的修改进行更改。
但是,这两种方法正逐步被现代语音合成方法所取代,即所谓的深度学习。
3. 深度学习方法
采用机器学习的语音合成达到了实时声音克隆的程度。只要一小段某人的声音样本,就能生成任何新的动态和独特的声音内容。该系统能立即学习声音、语调、单词和句子之间的停顿、重点、音量和速率,并以与原始采样声音完全相同的声学特征输出文本到语音的话语。
合乎伦理吗?如果声音样本的主人表示同意,那当然合乎伦理!
Respeecher 如何利用机器学习克隆声音?
首先,我们以道德方式使用它。未经声音样本所有者书面同意,我们不能处理任何声音样本,也不能将人工智能技术用于任何欺骗性的用途。
此外,这是一个非常简单的过程:我们收集目标和源声音,施展我们的人工智能魔法,然后,瞧!你就有了你需要的声音,可供你支配。
你也不用担心演员不在了,因为只要有他的声音样本,你就可以根据演员的声音生成你想要的任何话语。而且,我们的声音克隆服务让演员们的工作变得更简单,因为他们不再需要在录音棚花费大量的时间。这样,我们就可以帮助公司在制作视频和音频内容(电影、动画、视频游戏、广告)时,提高时间和经济效益。
乏味又费钱的配音过程,现在已经和说“声音克隆”一样简单了。比方说,我们可以使用任何一种声音样本来生成话语,这样我们就能从一位已故演员身上找回声音。
Respeecher 是最简单、最专业的方式,可以为任何类型的项目创造无尽的音频:电影和电视、游戏、广告、动画、播客和有声书、医疗保健、呼叫中心。将贵公司的“语音物流”交给我们,我们将帮助你为你的项目复制完美的语音。我们的目标是,在未来将我们的声音克隆服务扩展到更广的领域。
这不是文字转语音,而是语音转语音技术,这就是为什么我们克隆出来的声音中永远不会有那种机器人的、没有感情的声音。我们提供出色的效果:人耳无法区分真实的声音和克隆的声音。
作者介绍:
Respeecher 是乌克兰一家人工智能初创企业,旗下基于人工智能技术研发的变声软件可以帮助客户实现变声或语音合成功能,可以将用户的语音转换为诸如明星的声音,在确保语音情感的同时尽可能保留原有的语音细节。他们同好莱坞某制片厂展开合作,将该技术运用到了某部电影中,未来计划在娱乐业之外向呼叫行业进军。
原文链接:
https://africanpostonline.com/2021-guide-to-speech-synthesis-through-machine-learning/
评论