改变游戏规则，微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章

改变游戏规则，微软推出TTS语言模型VALL-E

微软推出了VALL-E，这是一种用于文本到语音合成（TTS）的新型语言模型方法，它使用音频编解码器代码作为中间表示，只需听三秒钟的音频录音，即可复制任何人的声音。

VALL-E 是一种神经编解码器语言模型，其中 AI 对语音进行标记，并使用其算法利用这些标记来构建听起来像演讲者的波形，包括保持演讲者的音色和情绪基调等。

根据该研究论文，VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音，就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较，“Ground Truth”是同一位演讲者使用特定短语（有点像实验中的“对照组”）录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例，“VALL-E”样例代表了 VALL-E 模型的输出。

根据评估数据，与最先进的零样本 TTS 系统相比，VALL-E 在LibriSpeech和VCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上，VALL-E 甚至产生了最尖端的零样本 TTS 结果。

近年来，由于神经网络和端到端建模的发展，语音合成领域取得了显著的进展。目前，声码器和声学模型通常用于级联的文本到语音（TTS）系统，其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

TTS 技术已经被集成到广泛的应用程序和设备中，如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业，以创造更具吸引力和个性化的体验。

原文链接：

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/

相关阅读：

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech，语音生成速度提高 38 倍

评论

发布

暂无评论

马斯克惊叹！消费级机器人有望在2025年掀起融资潮

机器人头条

机器人科技大模型人形机器人具身智能

转载：GaussDB TPOPS搭建流程

炸鸡配冰淇淋

幻兽帕鲁专用服务器搭建全攻略，速来抄作业！

京东科技开发者

江西鸿蒙生态新纪元：八大领域本土鸿蒙原生应用上架，共赴智慧未来

PullTube for Mac(在线视频下载器)v1.8.5.52中文激活版

小玖_苹果Mac软件

触目惊心，部分行业POI减少超百万！2025年选址挖掘分析建议更新至2024年12月31日最新全国所有类别POI，共6721万个

Eon Timer for Mac(好用的时间跟踪定时器)v2.9.15中文激活版

小玖_苹果Mac软件

MacMagic for Mac(系统垃圾清理软件)v1.2.5激活版

小玖_苹果Mac软件

“AI+Security”系列第4期（四）：机器语言大模型

如何构建云原生时空大数据平台？

WebGL在医学领域的应用

北京木奇移动技术有限公司

医学影像软件外包公司 webgl开发

WebGL 开发医学图像可视化

北京木奇移动技术有限公司

软件外包公司 webgl开发医学图像

必看！人工智能通识课怎么上？解答你最关心这 6 个问题！（3）

Python 人工智能大数据

Scherlokk for Mac(文件搜索软件)v6.3.4激活版

小玖_苹果Mac软件

鸿蒙 NEXT 开发中，使用公共事件进行进程间通信

威哥爱编程

HarmonyOS HarmonyOS框架 HarmonyOS NEXT

唤醒 AI 算力，专有云 ABC Stack 面向企业级智算平台的 GPU 提效实践

私有云容错机制大模型训练加速 GPU 利用率

MacPilot for Mac(系统优化软件)v16.2激活版

小玖_苹果Mac软件

AirRadar for Mac(无线wifi搜索工具)v7.4.2激活版

小玖_苹果Mac软件

WebGL开发手术模拟系统的技术难点

北京木奇移动技术有限公司

软件外包公司 webgl开发手术模拟

【PPT】TinyEngine 低代码引擎系列课第四讲课件分享

低代码 OpenTiny TinyEngine

Data Guardian for Mac(数据加密保护工具)v7.6.9激活版

小玖_苹果Mac软件

AI 智能体的开发流程

北京木奇移动技术有限公司

AI应用 AI智能体软件外包公司

Topaz Photo AI for Mac(人工智能降噪软件)v3.4.3 激活版

小玖_苹果Mac软件

PowerPhotos for Mac(mac专用图片管理工具)v2.7.2直装版

小玖_苹果Mac软件

Swift Publisher 5 for Mac(专业版面设计工具)v5.7.0直装版

小玖_苹果Mac软件

前端开发中依赖包有问题怎么办

京东科技开发者

记录一次SQL慢查询优化

京东科技开发者

还得是腾讯，拷问的太全面了

Go 腾讯面经

BOE（京东方）“向新2025”年终媒体智享会落地深圳 “屏”实力赋能产业创新发展

PullTube for Mac(在线视频下载器)v1.8.5.52中文激活版

小玖_苹果Mac软件