写点什么

谷歌语音人工智能 AudioPaLM,语音传输瞬间翻译

作者:Anthony Alford

  • 2023-08-02
    北京
  • 本文字数:1243 字

    阅读完需:约 4 分钟

谷歌语音人工智能AudioPaLM,语音传输瞬间翻译

谷歌的研究人员发布了AudioPaLM,这是一个大语言模型(LLM),可以通过语音传输执行文本转语音(TTS)、自动语音识别(ASR)和语音到语音翻译(S2ST)。AudioPaLM 是基于PaLM-2 LLM的,在翻译基准测试上优于OpenAI的Whisper


AudioPaLM 是一个基于 Transformer 的纯解码器模型,它将文本和音频输入组合成单个嵌入表示。与使用离散 ASR、机器翻译(MT)和 TTS 模型等级联的传统 S2ST 模型不同,AudioPaLM 可以保留声学特征,例如说话者的声音。AudioPaLM 在 S2ST 和 ASR 基准测试中取得了最先进的成绩,并且还展示了零样本能力,对训练数据中不存在的输入和目标组合执行 ASR。在FLEURS数据集上进行评估时,AudioPaLM 在 ASR 任务上“显著”优于 OpenAI 的 Whisper。


InfoQ 最近报道了其他几个多语言人工智能语音模型。2022 年,OpenAI发布了Whisper,这是一个基于 Transformer 的编码器/解码器 ASR 模型,可以转录和翻译 97 种不同语言的语音音频。今年早些时候,Meta发布了MMS,这是一个基于 wav2vec 的模型,可以用 1100 多种语言进行 ASR 和 TTS。


与这些相比,AudioPaLM 是一个基于 Transformer 的纯解码器模型。它是基于预训练的 PaLM-2 的。然后,将模型的标记字典扩展为包括声学标记,声学标记表示音频波形的短片段。它们被映射到与原始模型中文本标记相同的嵌入空间中。然后,模型的输入可以包括音频和文本。文本输入包括任务的简短描述,例如“[ASR 意大利语]”。当模型的输出被解码时,可以使用AudioLM模型将声学标记转换回音频波形。



AudioPaLM 的架构图。图片来源:https://google-research.github.io/seanet/audiopalm/examples/


AudioPaLM 接受了来自 100 多种语言的数千小时的音频数据训练。它在多个基准上进行了评估,包括CoVoST2(AST)、CVSS(S2ST)和VoxPopuli(ASR)。它在 AST 和 S2ST 上的表现优于基线模型,在 ASR 上具有“竞争力”。在使用FLEURS基准的零样本 AST 中,AudioPaLM“显著”优于 Whisper。它在 ASR 任务上也优于 Whisper,Whisper 接受过 ASR 任务所涉及的语言的训练,而 AudioPaLM 没有。


研究人员还评估了 AudioPaLM 的音频生成质量,特别是在 S2ST 期间保留原始说话者的声音方面。他们结合“客观指标和主观评估研究”将其性能与基线模型进行比较,发现它“显著”优于基线。在他们的论文中,谷歌团队指出,需要更好的基准来衡量音频生成的质量:


与文本相比,生成文本/音频任务的既定基准集的丰富性还不够成熟。这项工作主要集中在语音识别和语音翻译,它们的基准比较成熟。为生成音频任务建立更多的基准和指标将有助于进一步加快该研究。


一些用户在 Hacker News 的帖子中讨论了AudioPaLM。在回答关于 LLM 翻译准确性的问题时,鉴于其会“产生幻觉”的倾向,一位用户表示,对于像 AudioPaLM 这样最先进的模型,幻觉“几乎不存在”。关于 AudioPaLM 的翻译,另一位用户观察到:


令人印象深刻的是,它将“Morgenstund hat Gold imMund”(早晨口中含金子)翻译成了相应的英语表达“早起的鸟儿有虫吃”,而不是直译。


AudioPaLM输出的若干示例可以在网上找到。


原文链接:

https://www.infoq.com/news/2023/07/google-audiopalm/


2023-08-02 10:363133

评论 1 条评论

发布
用户头像
干翻同声传译
2023-08-02 17:03 · 北京
回复
没有更多了
发现更多内容

【论文速读】| 增强静态分析以实现实用漏洞检测:一种集成大语言模型的方法

云起无垠

iLogtail 2.0 来了;通义灵码下载量破百万丨阿里云云原生 2 月产品月报

阿里巴巴云原生

阿里云 云原生

Prompt工程师压箱底绝活——Prompt的基本组成部分、格式化输出与应用构建

飞桨PaddlePaddle

百度 百度飞桨 开发者说 Prompt 飞桨星河社区

一分钟了解深度算法

小齐写代码

时下最火的App自动化利器:Toast原理解析及操作实例,快速上手无障碍!

测吧(北京)科技有限公司

测试

HarmonyOS卡片刷新服务,信息实时更新一目了然

HarmonyOS SDK

HarmonyOS

概念回顾:物联网 (IoT)

NGINX开源社区

nginx 物联网 IoT API mqtt

OpenTiny Vue 3.14.0 正式发布,增加了 MindMap 思维导图等3个新组件

OpenTiny社区

vue.js 开源 前端 Web 组件库

1秒内审核3万条SQL:如何用规范识别与解决数据库风险?

NineData

数据库 sql 安全管控 研发效率 NineData

ai绘画免费图生图!一键生成免费可商用图片。

彭宏豪95

人工智能 办公软件 AIGC AI绘画 效率软件

EMQX ECP + NeuronEX 产品发布会:从边到云的实时工业互联数据平台

EMQ映云科技

mqtt mqtt broker

华为云GeminiDB新版本发布:全面支持Redis 6.2

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 华为云GeminiDB

Java HashSet 深入解析

小白牙

数据结构 后端 java‘

快速上手App自动化测试利器,Toast原理解析及操作实例

霍格沃兹测试开发学社

【堡垒机】企业购买堡垒机的七大需求你知道吗?

行云管家

网络安全 数据安全 堡垒机

挖掘M2 Pro 32G UMA内存潜力:在Mac上本地运行清华大模型ChatGLM2-6B

百度开发者中心

人工智能 自然语言处理 LLM 语言生成

Ollama:打造本地开源大模型聊天应用的实践

百度开发者中心

人工智能 大模型 openai

Programming Abstractions in C阅读笔记:p327-p330

codists

c 数据结构与算法

App自动化利器:Toast原理解析及操作实例,快速上手无障碍!

测试人

软件测试

2024-03-20:用go语言,自 01背包问世之后,小 A 对此深感兴趣。 一天,小 A 去远游,却发现他的背包不同于 01 背包,他的物品大致可分为 k 组。 每组中的物品只能选择1件,现在他想

福大大架构师每日一题

福大大架构师每日一题

美国站群多IP服务器的优势与特点,助你在搜索引擎中领先

一只扑棱蛾子

站群服务器 美国站群多IP服务器 站群多IP服务器

究竟什么样的数据库,才能承接RTA广告这个技术活!

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 广告投放

跨平台整合:如何在不同系统中使用淘宝商品详情API

tbapi

淘宝商品详情接口

Java & Go泛型对比

FunTester

亮点功能: 私有节点&组织内节点

都广科技

DevOps

九连冠!禅道再获2023年「常用测试管理工具」第一名

禅道项目管理

2024内蒙古等保备案办理流程指引

行云管家

网络安全 等保备案 内蒙古

谷歌语音人工智能AudioPaLM,语音传输瞬间翻译_自然语言处理_InfoQ精选文章