写点什么

改变游戏规则,微软推出 TTS 语言模型 VALL-E

作者:Daniel Dominguez

  • 2023-02-15
    北京
  • 本文字数:769 字

    阅读完需:约 3 分钟

改变游戏规则,微软推出TTS语言模型VALL-E

微软推出了VALL-E,这是一种用于文本到语音合成(TTS)的新型语言模型方法,它使用音频编解码器代码作为中间表示,只需听三秒钟的音频录音,即可复制任何人的声音。

 

VALL-E 是一种神经编解码器语言模型,其中 AI 对语音进行标记,并使用其算法利用这些标记来构建听起来像演讲者的波形,包括保持演讲者的音色和情绪基调等。

 

根据该研究论文,VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音,就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

 

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较,“Ground Truth”是同一位演讲者使用特定短语(有点像实验中的“对照组”)录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例,“VALL-E”样例代表了 VALL-E 模型的输出。

 

根据评估数据,与最先进的零样本 TTS 系统相比,VALL-E 在LibriSpeechVCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上,VALL-E 甚至产生了最尖端的零样本 TTS 结果。

 

近年来,由于神经网络和端到端建模的发展,语音合成领域取得了显著的进展。目前,声码器和声学模型通常用于级联的文本到语音(TTS)系统,其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

 

TTS 技术已经被集成到广泛的应用程序和设备中,如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业,以创造更具吸引力和个性化的体验。

 

原文链接:

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/


相关阅读:

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech,语音生成速度提高 38 倍

2023-02-15 08:005391

评论

发布
暂无评论
发现更多内容

Java验证邮箱是否有用的实现与解析

不在线第一只蜗牛

Java 前端

微软开源超强小模型 Phi-4,超 GPT-4o、可商用;HeyGen 集成 Sora 推全新数字人技术

声网

Python在多个Excel文件中找出缺失数据行数多的文件

快乐非自愿限量之名

Python Excel

智慧公厕的定义、核心功能、优势与应用场景

光明源智慧厕所

Windows(Win10/Win11) 系统开机自启

玄兴梦影

开机自启

IPv6升级改造三种技术方案优劣分析及选择

国科云

官宣!通义灵码 AI 程序员全面上线

阿里巴巴云原生

阿里云 云原生 通义灵码

G1原理—G1回收器的分区机制

不在线第一只蜗牛

架构 JVM

文献解读-Effectiveness of mRNA BNT162b2 COVID-19 vaccine up to 6 months in a large integrated health system in the USA: a retrospect

INSVAST

基因检测 临床试验 生信分析 Sentieon 变异检测

国际认可!天翼云合规领域影响力up!

天翼云开发者社区

云计算 天翼云

唯品会API接口深度解析:商品详情与关键词搜索的高效应用

代码忍者

TypeScript与JavaScript的区别

秃头小帅oi

实力!云起无垠入选中国信通院《数字安全护航技术能力全景图》

云起无垠

点赞!TeleDB入选2024大数据星河案例!

天翼云开发者社区

云计算 大数据 云服务

预见未来,智控风险:数据驱动风险管控新范式

用友智能财务

数据处理 财会

解读ENS网络连接,面向多云多池网络的高效互联

快乐非自愿限量之名

Web 网络

官宣!通义灵码 AI 程序员全面上线

阿里云云效

阿里云 云原生 通义灵码

探寻工业智慧化新引擎:还得看JNPF呀!!

快乐非自愿限量之名

低代码 物联网

垂类大模型 | 领域专家:更高维度的认知参与

澳鹏Appen

模型幻觉 垂类大模型 领域专家

Linux ssh 登录及免密登录

玄兴梦影

Linux 免密登录

2025,谁会成为 AI Agent 的新入口?|播客《编码人声》

声网

沙利文公布2024企业级产品应用竞争力排名,百度智能云第一

新消费日报

从0到1只需“拖一拖”,开发时间按秒算——低代码到底有多牛

JeeLowCode低代码平台

低代码开发 低代码前端 低代码,

小白秒变行业专家,天润融通智能客服系统Copilot来帮忙!

天润融通

智慧厕所如何颠覆传统公共设施?功能与价值全面解析

光明源智慧厕所

还不会 Cert Manager 自动签发证书?一文掌握

北京好雨科技有限公司

Kubernetes rainbond 云原生‘’ 企业号 2025年1月PK榜

见证广州地铁11号线开通:30个智慧公厕点亮城市新风貌

光明源智慧厕所

解读智慧厕所的环保与高效双重优势,助力可持续城市建设

光明源智慧厕所

杭州铭师堂的云原生升级实践

阿里巴巴云原生

阿里云 云原生

《深入理解Mybatis原理》MyBatis数据源与连接池详解

EquatorCoco

数据库 mybatis

讯飞星火办公智能体,杜绝职场人的“年会不消停”

脑极体

AI

改变游戏规则,微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章