写点什么

Meta 开发出首个无文字语言 AI 翻译系统,闽南语翻译安排上了!

  • 2022-10-25
    北京
  • 本文字数:2685 字

    阅读完需:约 9 分钟

Meta开发出首个无文字语言AI翻译系统,闽南语翻译安排上了!

本文最初发布于 VentureBeat 博客。


人工语音翻译是一种新兴的人工智能(AI)技术。起初,这种语音翻译技术(S2ST)是为了帮助说不同语言的人进行交流而创建的,但现在,它已经进入了多个领域。例如,全球科技企业集团正使用 S2ST 直接翻译元宇宙中的共享文件和音频对话。


在上周的 Cloud Next ’22 大会上,谷歌宣布了自己的 AI 语音翻译模型“Translation Hub”。该模型使用了云翻译 API 和 AutoML 翻译。现在,Meta 也不甘落后。


近日,Meta AI 宣布启动通用语音翻译(UST)项目,旨在创建一个可以跨所有语言进行实时语音翻译的 AI 系统,甚至包括那些口语常用但书面语不常用的语言。


Meta 联合创始人兼首席执行官马克·扎克伯格说,“Meta AI 开发了首个语音翻译软件,主要用于口语而非书面语。它是开源的,这样人们就可以把它用于更多的语言”。


按照 Meta 的说法,该模型是首个人工智能语音翻译系统,用于非书面语言闽南语。闽南语是一种在中国东南沿海和台湾地区使用的语言,在世界各地的华人中,也有许多人在使用。该系统使得说闽南语的人可以与说英语的人进行对话,这是打破全球语言障碍的重要一步。它将促进人与人之间的交流,无论他们在哪里——甚至在元宇宙中。


这是一项艰巨的任务,因为与普通话、英语和西班牙语既是书面语言又是口头语言不同,闽南语主要是口头的。


AI 如何处理语音翻译


Meta 表示,目前的人工智能翻译模型主要关注广泛使用的书面语言,在主要的口头语言中,尚有超过 40% 没有被这种翻译技术所覆盖。在 2 月份举行的公司 AI Inside The Lab 活动上,扎克伯格分享了 Meta AI 针对网络上不常见的语言进行通用语音翻译研究的进展。UST 项目就是在此基础上开展的。那次活动的重点是使用这种沉浸式 AI 技术来构建元宇宙。


为了构建 UST,Meta AI 致力于克服翻译系统面临的三项关键挑战。他们获取了更多语言的更多训练数据,并找到了利用现有数据的新方法,解决了数据稀缺的问题。他们还解决了随着模型发展(支持更多语言)而产生的建模挑战。他们还找到了新的方法来评估和改进其结果。


Meta AI 的研究团队将闽南语作为端到端解决方案的一项案例研究,从训练数据收集和建模选择到基准数据集。该团队专注于创建人工标注数据,自动从大型无标签语音数据集中挖掘数据,并采用伪标签生成弱监督数据。


Meta 研究员 Juan Pino 表示:“我们团队首先将英语或闽南语的语音翻译成普通话文本,然后再将其翻译成闽南语或英语。然后,我们会将成对的句子添加到用于训练人工智能模型的数据中。”


在这段视频中,扎克伯格展示了该公司的人工智能语音翻译模型。


在建模方面,Meta AI 运用了该领域的最新进展,在语音翻译中使用自监督离散表示作为预测目标,并演示了在模型训练中附加来自普通话的文本监督的有效性。Meta AI 表示,他们还将发布一个语音翻译基准,以推动该领域未来的研究。


人工智能研究员、Lightning AI 首席执行官兼联合创始人 William Falcon 表示,人工语音翻译可以在元宇宙中发挥重要作用,因为它有助于促进交互和内容创造。


Falcon 告诉 VentureBeat,“在交互方面,它将使来自世界各地的人们相互之间更顺畅地交流,使社交图谱的联系更为紧密。此外,借助人工语音翻译可以轻松将内容本地化,以供多种语言消费。”


Falcon 认为,疫情大幅增加了远程办公的人数,以及对远程办公工具的依赖,这些因素共同推动了该领域的发展。显然,这些工具可以从语音翻译功能中受益。


他说,“很快,我们就有望在元宇宙中实现播客、Reddit AMA 或 Clubhouse 式的体验了。使用多种语言进行广播,大规模地增加潜在受众。”

Meta 通用语音翻译系统(UST)的工作原理


该模型使用 S2UT 将输入语音直接转换为该路径下的一系列声学单元,这是 Meta 之前开创的一种实现方式。生成的输出由来自输入单元的波形组成。此外,Meta AI 采用了 UnitY 的双通解码机制,即一通解码器生成相关语言(普通话)的文本,二通解码器创建单元。


为了实现闽南语的自动评估,Meta AI 开发了一个系统,将闽南语语音转录为一个名为“Tâi-lô”的标准化音标。这使得数据科学团队可以计算音节级的 BLEU 评分(一种标准的机器翻译指标),并快速比较不同方法的翻译质量。


具有单路和双路解码器的 UST 模型架构。阴影中的方块为预训练模块(图片来源:Meta AI)。


除开发了一种评估闽南语 - 英语语音翻译的方法外,该团队还创建了第一个闽南语 - 英语双向语音翻译基准数据集,该数据集基于闽南语语音语料库“Taiwanese Across Taiwan”。


Meta AI 声称,他们在闽南语中开创的技术可以扩展到许多其他非书面语言——并最终实现实时翻译。为此,Meta 发布了语音矩阵(Speech Matrix),这是一个大型的语音翻译语料库,可使用 Meta 的创新数据挖掘技术(LASER)进行挖掘。这将使其他研究团队能够创建他们自己的 S2ST 系统。


LASER 将多种语言的句子转换为单个多模式、多语言表示。该模型使用大规模多语言相似度搜索来识别语义空间中相似的句子,即不同语言中可能具有相同含义的句子。


从语音矩阵中挖掘出的数据提供了 41.8 万小时的并行语音用于翻译模型训练,覆盖了 272 个语言方向。到目前为止,已经挖掘出超过 8000 小时的闽南语语音以及相应的英语翻译。


语音翻译未来的机遇与挑战


目前,Meta AI 的重点是开发一个语音翻译系统,而且要不依赖于推理过程中生成的中间文本表示。事实证明,该方法比传统的级联系统(组合使用了独立的语音识别、机器翻译和语音合成模型)速度更快。

Synthesis AI 首席执行官兼创始人 Yashar Behzadi 认为,如果元宇宙要取得成功,就需要借助技术提供更多沉浸式的自然体验。


他指出,由于语言的广泛性、复杂性和语言之间存在的细微差别,UST 模型目前面临的挑战之一是训练所需的计算成本非常高昂。


他说,“训练健壮的 AI 模型需要大量的代表性数据。在不久的将来,构建这些 AI 模型的一个重要瓶颈将是收集、管理和标注符合隐私合规要求的训练数据。获取的数据不够多样化可能会导致偏见,对不同的人群产生不同的影响。新兴的合成语音和 NLP 技术有可能在实现更强大的模型方面发挥重要的作用。”


Meta 表示,随着效率的提高和架构的简化,直接进行语音到语音的翻译可以为 AR 眼镜等未来设备解锁接近人类质量的实时翻译功能。此外,该公司最近在无监督语音识别(wav2vecu)和无监督机器翻译(mBART)方面取得的进展将有助于在元宇宙中翻译更多的口头语言。


随着在无监督学习方面取得的进展,Meta 旨在打破现实世界和元宇宙中所有语言的语言障碍,无论是书面的还是非书面的。


原文链接:


https://venturebeat.com/ai/meta-ai-announces-first-ai-powered-speech-translation-system-for-an-unwritten-language

2022-10-25 10:566042
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 558.9 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

多年后,我终于看清了比特币的本质

陈东泽 EuryChen

比特币 区块链

BOE(京东方)2020年报发布: 营收1355.53亿元 净利润大幅增长162.46%

透气胶浆、无手感透气胶浆

C13713145387

透气胶浆 仿拔印浆 无手感透气浆

对混沌工程的五个常见误解

混沌工程实践

混沌工程 故障注入 误区 生产事故 监管合规

SpringCloud(Netflix)-技术专题-自定义配置Ribbon

码界西柚

SpringCloud Ribbon

投资的狠人,往往是这样的

陈东泽 EuryChen

比特币 区块链 投资 李笑来 debank

KubeVela 1.0 :开启可编程式应用平台的未来

阿里巴巴云原生

容器 云原生 k8s 消息中间件 Go 语言

避免人工智能存在“歧视”,要从这8大方法入手

澳鹏Appen

人工智能 机器学习 大数据 人脸识别

智慧城市:大数据运营中心 IOC —— Web GIS 地图应用

一只数据鲸鱼

WebGIS ioc 数据可视化 智慧城市 数据运营

智慧公安情指勤系统搭建,指挥调度平台解决方

13828808769

智慧公安

防晒衣专用水性油墨说明书

C13713145387

防晒衣专用水性油墨 防水尼龙水性油墨

Linux grep 命令

一个大红包

4月日更

全球案例 | NTT:Atlassian 帮助我们重塑危机中的可能性

Atlassian

敏捷 团队协作 数字化转型 Atlassian Jira

「 留言参与 」—— InfoQ 写作平台【 1 周年盛典 】

InfoQ写作社区官方

1 周年盛典 热门活动

《采访彩食鲜 CTO 乔新亮:如何从一名程序员晋阶为CTO》(采访提纲)

石云升

28天写作 4月日更 调查采访能力考核

爽面数码打底浆说明书

C13713145387

爽面数码打底浆 哑面数码打底浆 数码打底浆

SpringCloud(Netfix)-技术专题-服务注册与发现

码界西柚

SpringCloud

应对海量时序数据,华为云GaussDB(for Influx)有妙招

华为云开发者联盟

云原生 数字化转型 时序数据 华为云GaussDB

第一篇测试

童童

架构训练营

区块链电子证照平台搭建,助推政务数字化发展

13828808769

电子存证 区块链+ #区块链#

联邦学习,为何而生?

博文视点Broadview

【LeetCode】实现 Trie (前缀树)Java题解

Albert

算法 LeetCode 4月日更

云原生势不可挡,华为云GaussDB加速企业数字化转型

华为云开发者联盟

华为云 GaussDB

Spark的动态资源分配

小舰

Spark调优 4月日更

重读《重构2》- 提炼变量

顿晓

重构 4月日更

PHP自动加载原理

Sakura

4月日更

华为云PB级数据库GaussDB(for Redis)揭秘第七期:高斯Redis与强一致

华为云开发者联盟

redis 华为云 GaussDB(for Redis) 强一致 PB级数据库

区块链商品防伪溯源平台搭建,实现数据信息安全共享

13828808769

区块链 商品溯源 #区块链#

CloudQuery v1.3.6发布,更加完善的数据操作支持

BinTools图尔兹

数据库 sql 数据安全 数据管理工具

基于深度神经网络的噪声标签学习

华为云开发者联盟

神经网络 损失函数 深度神经网络 噪声 噪音数据

神秘又强大的@SpringBootApplication注解

vivo互联网技术

Java 后端 springboot 注解分析

Meta开发出首个无文字语言AI翻译系统,闽南语翻译安排上了!_AI&大模型_Victor Dey_InfoQ精选文章