写点什么

改变游戏规则,微软推出 TTS 语言模型 VALL-E

作者:Daniel Dominguez

  • 2023-02-15
    北京
  • 本文字数:769 字

    阅读完需:约 3 分钟

改变游戏规则,微软推出TTS语言模型VALL-E

微软推出了VALL-E,这是一种用于文本到语音合成(TTS)的新型语言模型方法,它使用音频编解码器代码作为中间表示,只需听三秒钟的音频录音,即可复制任何人的声音。

 

VALL-E 是一种神经编解码器语言模型,其中 AI 对语音进行标记,并使用其算法利用这些标记来构建听起来像演讲者的波形,包括保持演讲者的音色和情绪基调等。

 

根据该研究论文,VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音,就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

 

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较,“Ground Truth”是同一位演讲者使用特定短语(有点像实验中的“对照组”)录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例,“VALL-E”样例代表了 VALL-E 模型的输出。

 

根据评估数据,与最先进的零样本 TTS 系统相比,VALL-E 在LibriSpeechVCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上,VALL-E 甚至产生了最尖端的零样本 TTS 结果。

 

近年来,由于神经网络和端到端建模的发展,语音合成领域取得了显著的进展。目前,声码器和声学模型通常用于级联的文本到语音(TTS)系统,其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

 

TTS 技术已经被集成到广泛的应用程序和设备中,如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业,以创造更具吸引力和个性化的体验。

 

原文链接:

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/


相关阅读:

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech,语音生成速度提高 38 倍

2023-02-15 08:005414

评论

发布
暂无评论
发现更多内容

大数据揭秘丨疫情影响下亚马逊女性夹克的逆袭之旅

前嗅大数据

大数据 数据分析 数据采集 跨境电商 亚马逊

云堡垒机能给公司带来哪些价值?选择哪款好?

行云管家

云计算 堡垒机 云堡垒机 云运维

英特尔为开源注入创新力量,加速AI应用

科技之家

火山引擎CDN的技术演进与未来

火山引擎边缘云

《Vue.js技术内幕》有奖书评活动正式开启

图灵教育

vue.js 前端

中国信通院沙龙|火山引擎边缘云助力业务体验创新

火山引擎边缘云

云计算 云原生 边缘计算 边缘节点 信通院

墨天轮沙龙 | 麦杰科技卢学东:openPlant 实时数据库系统及应用

墨天轮

数据库 工业 国产数据库 实时数据库

高性能数据访问中间件 OBProxy(五):一文讲透数据路由

OceanBase 数据库

《Vue.js技术内幕》有奖书评活动正式开启

图灵社区

vue.js 前端

荣耀开发者服务平台全新升级,助力开发者简单开发、高效分发

荣耀开发者服务平台

开发者 手机 安卓 荣耀 honor

10年经验hr亲授:刷完阿里P8架构师的RocketMQ核心手册,进大厂稳了

Geek_0c76c3

Java 数据库 开源 架构 开发

react常见考点

beifeng1996

前端 React

2022年Q2全国网络零售发展指数同比增长3.3%

易观分析

市场 消费

天翼云ECK云边一体化

天翼云开发者社区

帮助 Meta 解决 Presto 中的数据孤岛问题

Alluxio

sql 开源 presto Alluxio meta

存储资源盘活系统,“盘活”物联网架构难题(下)

天翼云开发者社区

有什么好用的低代码快速开发平台?

优秀

低代码开发平台

Wallys//Industrial_Wireless_AP//network,card//QCN6024/QCN9074/QCN9024,WiFi,Card IPQ6010,802.11ax,2x2

wallys-wifi6

QCN9074 QCN6024 QCN9072

突破研发效能瓶颈,详解价值流分析的五大流动指标

万事ONES

React源码解读之React Fiber

flyzz177

React

从recat源码角度看setState流程

flyzz177

React

数据库连接池

C++后台开发

MySQL 数据库 后端开发 Linux服务器开发 连接池

怎么样在应用中实现自助报表功能

石臻臻的杂货铺

报表

云行| 加码算力网络布局,天翼云发布南京3AZ节点

天翼云开发者社区

20道高频vue面试题自测

bb_xiaxia1998

Vue 前端

教育行业在用的云管平台是什么牌子?

行云管家

云计算 教育 云管平台 云管理

一份react面试题总结

beifeng1996

前端 React

差点自闭!京东面试官夺命连环问操作系统,幸好最后拿到了offer

Geek_0c76c3

Java 数据库 开源 程序员 开发

Java岗秋招最全面试攻略,看这份Java架构面试核心手册,足够了

Geek_0c76c3

Java 数据库 开源 程序员 架构

凭这份堪称保姆级别的Java面试宝典,已怒斩3个大厂offer(阿里,美团,腾讯)

Geek_0c76c3

Java 数据库 开源 程序员 架构

异地多活架构新突破:库存单元化部署技术思路揭秘

阿里技术

数据库 架构

改变游戏规则,微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章