写点什么

阿里巴巴发布新一代语音合成技术 KAN-TTS,成本降低 10 倍、周期缩短 3 倍

  • 2019-07-10
  • 本文字数:963 字

    阅读完需:约 3 分钟

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍

TTS 是语音合成的一种方式,即文字转语音(Text-To-Speech),早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER,是一种利用共振峰原理所制作的合成器。


1960 年,瑞典语言学家 G. Fant 则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来 1980 年代 Moulines E 和 Charpentier F 提出新的语音合成算法 PSOLA,此技术可以合成比较自然的语音。


在 7 月 9 日阿里巴巴的一场分享会上,达摩院语音实验室高级算法专家雷鸣进行了有关语音合成技术的分享,他认为:“我们目前所处的阶段是一个合成语言大变革的阶段,主要的特点是大家都希望能够提供一个非常接近于真人表现的合成语音,可喜的是,语音合成的质量进步很快。”


阿里巴巴发布的“新一代语音合成技术”KAN-TTS(Knowledge-Aware Neural TTS),由达摩院机器智能实验室自主研发。 阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85%到 90%之间,而基于 KAN-TTS 技术的合成语音可将该数据提高到 97%以上。


据了解,该技术深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术,从多个方面改进了语音合成。



KAN-TTS 的基本框图


传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。


阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法,将语音合成定制成本降低 10 倍以上,周期压缩 3 倍以上。也就是说,用 1 小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。



构建多发音人语音合成系统的方式


普通用户定制“AI 声音”的门槛更低。阿里方面介绍称:只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。


据了解,阿里已经对外提供开箱即用的 TTS 解决方案,共有通用、客服、童声、英文和方言 5 个场景的 34 种高品质声音供选择。


基于新一代技术,阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用,比如当人们驾车行驶于信号微弱区域,阿里技术能避免语音导航“掉线”。


2019-07-10 18:159853
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 283.8 次阅读, 收获喜欢 1303 次。

关注

评论

发布
暂无评论
发现更多内容

工厂函数和构造函数

大熊G

JavaScript 前端 6月月更

【高并发】高并发分布式锁架构解密,不是所有的锁都是分布式锁!!

冰河

并发编程 多线程 高并发 异步编程 6月月更

注意了,ribbon将被替换

Damon

6月月更

HTML代码清除CSS和JS代码

入门小站

工具

Django API 开发:博客系统接入 API

宇宙之一粟

django API 6月月更

Jetpack Composes 学习【02】Text

坚果

6月月更

Web Service进阶(四)WebService注解

No Silver Bullet

WebService 6月月更

【Python技能树共建】断言

梦想橡皮擦

Python 6月月更

零信任态势评估:CIS安全控制内容与实施

权说安全

网络安全 零信任

mysql基础操作

工程师日月

6月月更

鲲鹏DevKit工具基础知识

乌龟哥哥

6月月更

端午“沉浸式云旅游”怎么玩?即构助力“直播+”新场景落地

ZEGO即构

直播 云旅游

InfoQ 极客传媒 15 周年庆征文 | Web3.0:互联网的未来

devpoint

区块链 Token InfoQ极客传媒15周年庆

Kafka 负载均衡在 vivo 的落地实践

vivo互联网技术

大数据 kafka 负载均衡 集群

在信息化的背景下,如何鼓励员工进行知识共享?

小炮

String源码解读(JDK1.8)

莫逸风

Java 源码 string 6月月更

java培训高频Spring面试题分享

@零度

spring JAVA开发

windows下修改、编译、构建spring-framework4.1.8.RELEASE源码

程序员欣宸

Java SpringFramework 6月月更

原来Mysql索引要这么设计才能起飞

慕枫技术笔记

MySQL索引 6月月更

Linux驱动开发_mplayer播放器开发

DS小龙哥

6月月更

SAP 云平台上的 ABAP 编程环境里如何消费第三方服务

汪子熙

云计算 Cloud SAP abap 6月月更

前端导出 excel(基于 Blob.js 和 Export2Excel.js 做前端导出)

CRMEB

web前端培训20+Vue经典面试题分享

@零度

Vue 前端开发

linux之zgrep查找压缩包文件文本

入门小站

Linux

低代码平台FlyFish在云智慧的落地实践探索

云智慧AIOps社区

开源 前端 低代码 数据可视化

LeaRun敏捷开发平台加速企业数字化转型

力软低代码开发平台

Fabric.js 锁定背景图,不受缩放和拖拽的影响🎃

德育处主任

web前端 canvas FabricJS Fabric.js 6月月更

面试突击54:MySQL 常用引擎有哪些?

王磊

Java 面试

保姆级教程,龙蜥操作系统安装使用一步到位!

OpenAnolis小助手

开源 操作系统 安装 配置 龙蜥

实时数据湖在字节跳动的实践

字节跳动数据平台

字节跳动 数据湖 实时数据 湖仓一体

Windows 系统如何修改 hosts?

甜甜的白桃

windows hosts 6月月更

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍_AI&大模型_陈思_InfoQ精选文章