谷歌已经在人工智能领域努力了很长一段时间,并成功实现了一些惊人的成果,2019 年发布的直接语音翻译系统 Translatotron 就是其中之一。
Translatotron 是一种人工智能系统,能够将一段语音直接翻译成另一种语言。该系统可以创建原始语音的合成翻译,保留说话者的原始音调音色,让翻译出来的语音听起来就像是本人说的一样。但与它的突出优势伴随而来的是一个显著缺陷:该系统创建的语音还能换一种声音,因此很容易被滥用。一个类似的例子就是图像领域的deepfakes,也就是深度伪造图像。
来源:https://arxiv.org/pdf/2107.08661.pdf
新系统:Translatotron2
谷歌现在声称,他们已经在 Translatotron 2 中给出了解决方案。这个新的 AI 系统解决了滥用问题,因为它被限制为保持源讲话人的声音特性不变。新系统通过减少不需要的伪像(如说话间的踌躇和长时间停顿)提高了质量并让声音听起来更加自然。不仅如此,这个新系统的性能也更出色,大大超过了第一代版本。
新元素
人工智能研究人员在他们的论文中进一步提到了几个新元素:
源语音编码器
目标音素解码器
通过一个注意力模块连接的合成器
所有这些元素都是相辅相成的;编码器和解码器处理输入系统的所有数据,然后注意力模块研究每条信息在提供的数据中的相关性。这是一个系统过程,之后整个系统会生成输出。
在这一过程中,编码器创建语音的数字表示,解码器描述生成的翻译语音的音素(这些音素是声音的次级单位,使系统/听众更容易将一段语音与来自任意语种的另一段语音区分开来)。之后合成器开始工作,从解码器中获取输出以及随后产生的上下文,来合成翻译后的语音。
来源:https://arxiv.org/pdf/2107.08661.pdf
限制翻译器的深度伪造能力
对于利于深度伪造方法来生成伪造语音的做法,研究人员的对策是在开发时限定系统只能保留原始说话者的声音。为此,研究人员从宏观视角入手开发了一种方法,其不需依赖明确和给定的 ID 来识别说话者(Translatotron 中使用的旧技术)。因此,谷歌的研究人员声称 Translatotron 更适合用来生成翻译语音,因为它能预防潜在的滥用风险。
研究人员还声称,近年来语音转换已成为一种越来越流行的趋势。机器语音质量的水平已经提升到了自动化验证器通常无法分辨其是否来自人类、是否经过处理的程度。因此,这一领域的系统本身就应该避免任何形式的滥用,而新一代的 Translatotron 2 就声称自己能做到这一点。
在媒体生成技术不断改进的道路上,Translatotron 2 是研究人员对抗深度伪造技术的一项突破,如果它能取得成功,则未来影响会相当可观。
论文:https://arxiv.org/pdf/2107.08661.pdf
项目示例:https://google-research.github.io/lingvo-lab/translatotron2/
原文链接:
评论