写点什么

改变游戏规则,微软推出 TTS 语言模型 VALL-E

作者:Daniel Dominguez

  • 2023-02-15
    北京
  • 本文字数:769 字

    阅读完需:约 3 分钟

改变游戏规则,微软推出TTS语言模型VALL-E

微软推出了VALL-E,这是一种用于文本到语音合成(TTS)的新型语言模型方法,它使用音频编解码器代码作为中间表示,只需听三秒钟的音频录音,即可复制任何人的声音。

 

VALL-E 是一种神经编解码器语言模型,其中 AI 对语音进行标记,并使用其算法利用这些标记来构建听起来像演讲者的波形,包括保持演讲者的音色和情绪基调等。

 

根据该研究论文,VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音,就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

 

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较,“Ground Truth”是同一位演讲者使用特定短语(有点像实验中的“对照组”)录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例,“VALL-E”样例代表了 VALL-E 模型的输出。

 

根据评估数据,与最先进的零样本 TTS 系统相比,VALL-E 在LibriSpeechVCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上,VALL-E 甚至产生了最尖端的零样本 TTS 结果。

 

近年来,由于神经网络和端到端建模的发展,语音合成领域取得了显著的进展。目前,声码器和声学模型通常用于级联的文本到语音(TTS)系统,其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

 

TTS 技术已经被集成到广泛的应用程序和设备中,如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业,以创造更具吸引力和个性化的体验。

 

原文链接:

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/


相关阅读:

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech,语音生成速度提高 38 倍

2023-02-15 08:005402

评论

发布
暂无评论
发现更多内容

莫把暑假插错秧,代码哪有足球香,Alluxio足球青训营在线摇人!

Alluxio

微软 开源 足球 分布式, CCF开源高校行

天翼云数据中台通过“数字政府智慧中台”评估

Geek_2d6073

深度合作 | TDengine + 华为云 Stack 强强联合打造高效物联网时序数据处理解决方案

TDengine

数据库 tdengine 时序数据库

Wallys/Routerboard/DR344/WiFi/AR9344 FCC/CE/IC

wallys-wifi6

AR9344 802.11a

二级等保要求几年做一次测评?测评项目有多少项?

行云管家

等级保护 等保测评 二级等保 等保二级

帮助文档在软件中的存在价值是什么?

小炮

Nginx 配置和性能调优

CRMEB

Java—线程安全II

武师叔

6月月更

数据智能基础设施升级窗口将至?看九章云极 DingoDB 如何击破数据痛点

九章云极DataCanvas

人工智能 数据库 数据 数据智能

【云计算】云计算平台是什么意思?可以划分为哪三类?

行云管家

云计算 云服务 私有云 云平台 云计算平台

InfoQ 极客传媒 15 周年庆征文|Spring Cloud netflix概览及架构设计

No Silver Bullet

架构 6月月更 InfoQ极客传媒15周年庆 Spring Cloud netflix

InfoQ 极客传媒 15 周年庆征文|手摸手教你在Windows安装Docker,一定要看到最后

迷彩

Docker 架构 运维 6月月更 InfoQ极客传媒15周年庆

服务网格项目Aeraki Mesh正式进入CNCF沙箱

York

开源 云原生 istio Service Mesh 服务网格 cncf

物联网低代码平台如何添加报警配置?

AIRIOT

物联网 低代码开发 低代码平台

web前端培训VUE开发者需要知道哪些实用技术点

@零度

Vue 前端开发

保险APP适老化服务评测框架 发布

易观分析

保险

TiDB 6.0 实战分享丨内存悲观锁原理浅析与实践

PingCAP

分布式数据库 TiDB

justcows奶牛理财dapp系统开发

开发微hkkf5566

千亿参数“一口闷”?大模型训练必备四种策略

OneFlow

人工智能 模型训练 策略

从行业角度看,数仓领域的未来是什么?

字节跳动数据平台

字节跳动 数据仓库 OLAP

2022年中国社区团购发展新动向

易观分析

社区团购

谷歌AI人格觉醒“喜提”热搜,我们找清华大佬聊了聊 AI 对话系统的惊人进展

硬科技星球

人工智能 谷歌 图灵测试

十分钟带你入门Docker容器引擎

百思不得小赵

云原生 Docker 镜像 6月月更

量化夹子机器人系统开发逻辑分析

开发微hkkf5566

【Java Web 系列】Session的原理分析和使用细节

倔强的牛角

Java javaWeb session 6月月更

NFT卡牌盲盒链游系统dapp开发搭建

薇電13242772558

智能合约 NFT

技术分享| 云服务器的使用-nginx的安装及使用

anyRTC开发者

nginx centos 音视频 服务器

融云首席科学家任杰:数字游民和意识体,疫情将如何影响人类社会进化

融云 RongCloud

Go语言入门基础之库源码文件

Damon

6月月更

从 keynote 大神到语雀画图大神,她是怎么做到的?

编辑器 思维导图 文档管理 企业知识管理

How to solve the different brightness of LED display colors

Dylan

LED LED display

改变游戏规则,微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章