写点什么

阿里巴巴发布新一代语音合成技术 KAN-TTS,成本降低 10 倍、周期缩短 3 倍

  • 2019-07-10
  • 本文字数:963 字

    阅读完需:约 3 分钟

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍

TTS 是语音合成的一种方式,即文字转语音(Text-To-Speech),早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER,是一种利用共振峰原理所制作的合成器。


1960 年,瑞典语言学家 G. Fant 则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来 1980 年代 Moulines E 和 Charpentier F 提出新的语音合成算法 PSOLA,此技术可以合成比较自然的语音。


在 7 月 9 日阿里巴巴的一场分享会上,达摩院语音实验室高级算法专家雷鸣进行了有关语音合成技术的分享,他认为:“我们目前所处的阶段是一个合成语言大变革的阶段,主要的特点是大家都希望能够提供一个非常接近于真人表现的合成语音,可喜的是,语音合成的质量进步很快。”


阿里巴巴发布的“新一代语音合成技术”KAN-TTS(Knowledge-Aware Neural TTS),由达摩院机器智能实验室自主研发。 阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85%到 90%之间,而基于 KAN-TTS 技术的合成语音可将该数据提高到 97%以上。


据了解,该技术深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术,从多个方面改进了语音合成。



KAN-TTS 的基本框图


传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。


阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法,将语音合成定制成本降低 10 倍以上,周期压缩 3 倍以上。也就是说,用 1 小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。



构建多发音人语音合成系统的方式


普通用户定制“AI 声音”的门槛更低。阿里方面介绍称:只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。


据了解,阿里已经对外提供开箱即用的 TTS 解决方案,共有通用、客服、童声、英文和方言 5 个场景的 34 种高品质声音供选择。


基于新一代技术,阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用,比如当人们驾车行驶于信号微弱区域,阿里技术能避免语音导航“掉线”。


2019-07-10 18:159823
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 281.9 次阅读, 收获喜欢 1302 次。

关注

评论

发布
暂无评论
发现更多内容

MES系统跟车间设备怎么连接?设备管理后的好处有哪些?

万界星空科技

数据采集 mes 设备管理 万界星空科技 智能设备管理

TIDB 分区表使用实践

TiDB 社区干货传送门

6.x 实践

实时计算Flink集成开源连接器-TiDB CDC Connector案例实践

TiDB 社区干货传送门

实践案例 应用适配 数据库连接

一文了解TiDB的数据对比工具sync-diff-inspector

TiDB 社区干货传送门

实践案例

绕过 MVCC 影响的 TiDB Delete 数据方法

TiDB 社区干货传送门

管理与运维 7.x 实践

cURL 命令全面解析:提高工作效率

Apifox

程序员 前端 后端 API curl

数据本地性如何助力企业在云上实现高效机器学习

Alluxio

机器学习 gpu 模型训练 云存储 Alluxio

容器架构下的性能测试实践方法

老张

性能测试 容器化

TiKV 状态变化

TiDB 社区干货传送门

开源一个教学型分库分表示例项目 shardingsphere-jdbc-demo

EquatorCoco

数据库 开源 分布式

牛市下一个板块该轮到谁?Gamefi赛道爆发你吃到了多少?

威廉META

月活超 1.1 亿,用户超 4 亿,你也在用的「知乎」是如何在超大规模 TiDB 集群上玩转多云多活的?

TiDB 社区干货传送门

实践案例 社区活动 数据库前沿趋势 OLTP 场景实践

不再等待直接上答案,百度智能云推出数据库 Copilot

Baidu AICLOUD

数据库 大模型

在 GraalVM 静态编译下无侵入实现可观测探索

阿里巴巴云原生

Java 阿里云 云原生

Puppet 2024年度报告:平台工程发掘 DevOps 无限潜质

SEAL安全

DevOps 平台工程 puppet

DApp 链上合约质押挖矿系统开发丨技术搭建

l8l259l3365

通过TiOperator备份数据到共享存储

TiDB 社区干货传送门

实践案例 集群管理 故障排查/诊断 备份 & 恢复

Java jdbc 驱动 maxPerformance 配置避坑

TiDB 社区干货传送门

开发语言 应用适配 数据库连接

iOS应用审核问题解决方案及优化方法 ✨

雪奈椰子

【干货】需求驱动的配货

第七在线

金三银四 | 软件测试开发岗求职攻略来袭,快来抢先一步!

测试人

软件测试

开源分布式数据库 TiDB 架构以及HTAP 的实现

TiDB 社区干货传送门

TiDB 底层架构

微隔离,做到真正零信任

德迅云安全杨德俊

教你用python爬取『京东』商品数据,原来这么简单!

技术冰糖葫芦

API 接口

详细教程:如何制作产品介绍二维码(二)

草料二维码

二维码 草料二维码 干货分享

万字心路历程:从十年老架构决定重构开始

阿里巴巴云原生

阿里云 云原生 iLogtail

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍_AI&大模型_陈思_InfoQ精选文章