写点什么

改变游戏规则,微软推出 TTS 语言模型 VALL-E

作者:Daniel Dominguez

  • 2023-02-15
    北京
  • 本文字数:769 字

    阅读完需:约 3 分钟

改变游戏规则,微软推出TTS语言模型VALL-E

微软推出了VALL-E,这是一种用于文本到语音合成(TTS)的新型语言模型方法,它使用音频编解码器代码作为中间表示,只需听三秒钟的音频录音,即可复制任何人的声音。

 

VALL-E 是一种神经编解码器语言模型,其中 AI 对语音进行标记,并使用其算法利用这些标记来构建听起来像演讲者的波形,包括保持演讲者的音色和情绪基调等。

 

根据该研究论文,VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音,就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

 

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较,“Ground Truth”是同一位演讲者使用特定短语(有点像实验中的“对照组”)录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例,“VALL-E”样例代表了 VALL-E 模型的输出。

 

根据评估数据,与最先进的零样本 TTS 系统相比,VALL-E 在LibriSpeechVCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上,VALL-E 甚至产生了最尖端的零样本 TTS 结果。

 

近年来,由于神经网络和端到端建模的发展,语音合成领域取得了显著的进展。目前,声码器和声学模型通常用于级联的文本到语音(TTS)系统,其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

 

TTS 技术已经被集成到广泛的应用程序和设备中,如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业,以创造更具吸引力和个性化的体验。

 

原文链接:

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/


相关阅读:

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech,语音生成速度提高 38 倍

2023-02-15 08:005457

评论

发布
暂无评论
发现更多内容

马斯克惊叹!消费级机器人有望在2025年掀起融资潮

机器人头条

机器人 科技 大模型 人形机器人 具身智能

转载:GaussDB TPOPS搭建流程

炸鸡配冰淇淋

GaussDB TPOPS

幻兽帕鲁专用服务器搭建全攻略,速来抄作业!

京东科技开发者

江西鸿蒙生态新纪元:八大领域本土鸿蒙原生应用上架,共赴智慧未来

最新动态

PullTube for Mac(在线视频下载器)v1.8.5.52中文激活版

小玖_苹果Mac软件

触目惊心,部分行业POI减少超百万!2025年选址挖掘分析建议更新至2024年12月31日最新全国所有类别POI,共6721万个

Geek_f9782a

GIS POI数据

Eon Timer for Mac(好用的时间跟踪定时器)v2.9.15中文激活版

小玖_苹果Mac软件

MacMagic for Mac(系统垃圾清理软件)v1.2.5激活版

小玖_苹果Mac软件

“AI+Security”系列第4期(四):机器语言大模型

云起无垠

如何构建云原生时空大数据平台?

Databend

WebGL在医学领域的应用

北京木奇移动技术有限公司

医学影像 软件外包公司 webgl开发

WebGL 开发医学图像可视化

北京木奇移动技术有限公司

软件外包公司 webgl开发 医学图像

必看!人工智能通识课怎么上?解答你最关心这 6 个问题!(3)

ModelWhale

Python 人工智能 大数据

Scherlokk for Mac(文件搜索软件)v6.3.4激活版

小玖_苹果Mac软件

鸿蒙 NEXT 开发中,使用公共事件进行进程间通信

威哥爱编程

HarmonyOS HarmonyOS框架 HarmonyOS NEXT

唤醒 AI 算力,专有云 ABC Stack 面向企业级智算平台的 GPU 提效实践

Baidu AICLOUD

私有云 容错机制 大模型 训练加速 GPU 利用率

MacPilot for Mac(系统优化软件)v16.2激活版

小玖_苹果Mac软件

AirRadar for Mac(无线wifi搜索工具)v7.4.2激活版

小玖_苹果Mac软件

WebGL开发手术模拟系统的技术难点

北京木奇移动技术有限公司

软件外包公司 webgl开发 手术模拟

【PPT】TinyEngine 低代码引擎系列课第四讲课件分享

OpenTiny社区

低代码 OpenTiny TinyEngine

Data Guardian for Mac(数据加密保护工具)v7.6.9激活版

小玖_苹果Mac软件

AI 智能体的开发流程

北京木奇移动技术有限公司

AI应用 AI智能体 软件外包公司

Topaz Photo AI for Mac(人工智能降噪软件)v3.4.3 激活版

小玖_苹果Mac软件

PowerPhotos for Mac(mac专用图片管理工具)v2.7.2直装版

小玖_苹果Mac软件

Swift Publisher 5 for Mac(专业版面设计工具)v5.7.0直装版

小玖_苹果Mac软件

前端开发中依赖包有问题怎么办

京东科技开发者

记录一次SQL慢查询优化

京东科技开发者

还得是腾讯,拷问的太全面了

王中阳Go

Go 腾讯 面经

BOE(京东方)“向新2025”年终媒体智享会落地深圳 “屏”实力赋能产业创新发展

爱极客侠

PullTube for Mac(在线视频下载器)v1.8.5.52中文激活版

小玖_苹果Mac软件

改变游戏规则,微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章