阿里巴巴发布新一代语音合成技术KAN-TTS，成本降低10倍、周期缩短3倍_AI&大模型_陈思

TTS 是语音合成的一种方式，即文字转语音（Text-To-Speech），早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪，贝尔实验室对于电子语音合成技术的研究，才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER，是一种利用共振峰原理所制作的合成器。

1960 年，瑞典语言学家 G. Fant 则提出利用线性预测编码技术（LPC）来作为语音合成分析技术，并推动了日后的发展。后来 1980 年代 Moulines E 和 Charpentier F 提出新的语音合成算法 PSOLA，此技术可以合成比较自然的语音。

在 7 月 9 日阿里巴巴的一场分享会上，达摩院语音实验室高级算法专家雷鸣进行了有关语音合成技术的分享，他认为：“我们目前所处的阶段是一个合成语言大变革的阶段，主要的特点是大家都希望能够提供一个非常接近于真人表现的合成语音，可喜的是，语音合成的质量进步很快。”

阿里巴巴发布的“新一代语音合成技术”KAN-TTS（Knowledge-Aware Neural TTS），由达摩院机器智能实验室自主研发。阿里方面称，当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85%到 90%之间，而基于 KAN-TTS 技术的合成语音可将该数据提高到 97%以上。

据了解，该技术深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术，从多个方面改进了语音合成。

KAN-TTS 的基本框图

传统语音合成定制需要 10 小时以上的数据录制和标注，对录音人和录音环境要求很高。从启动定制到最终交付，项目周期长成本高。

阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法，将语音合成定制成本降低 10 倍以上，周期压缩 3 倍以上。也就是说，用 1 小时有效录音数据和不到两个月制作周期，就能完成一次标准 TTS 定制。

构建多发音人语音合成系统的方式

普通用户定制“AI 声音”的门槛更低。阿里方面介绍称：只需手机录音十分钟，就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点，主要基于自动数据检查、自动标注方法和对海量用户场景的利用。

据了解，阿里已经对外提供开箱即用的 TTS 解决方案，共有通用、客服、童声、英文和方言 5 个场景的 34 种高品质声音供选择。

基于新一代技术，阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用，比如当人们驾车行驶于信号微弱区域，阿里技术能避免语音导航“掉线”。

发布

暂无评论

创作场景

阿里巴巴发布新一代语音合成技术 KAN-TTS，成本降低 10 倍、周期缩短 3 倍

评论

惠普中国（HPE）技术总监教你如何做个“火影般”的“架构师”

笔记本中的“全优生”，英特尔Evo产品上市首日秒光！

架构师训练营第一期 - 第五周课后 - 作业二

架构师训练营第一周学习总结

世界上最难的5种编程语言

成为架构师 - 架构师训练营第01周

什么！你还在使用 if (xxx != null)做NullPointerException判断？

架构师训练营第 1 期第五周总结

区块链技术本质再认知

知识视频创作者何去何从，百度给出解答

第五周总结

食堂就餐卡系统设计

《我想进大厂》之JVM夺命连环10问

《我想进大厂》之Dubbo普普通通9问

食堂就餐系统UML图

架构师训练营1期第5周作业--一致性哈希算法

科大讯飞开发者大赛：首届X光安检图像识别挑战赛结果出炉

架构训练营第一周学习总结

这本书可能是给用户最好的礼物——专栏《软件交付那些事儿》上线

数字货币可能重构全球货币体系

政府和企业如何认识到区块链的好处

极客时间 - 架构师一期 - 第五周作业

c++nullptr（空指针常量）、constexpr（常量表达式）

架构师训练营第一周总结

前端更应懂产品

第一周学习总结

架构师训练营 - 第一周学习总结

架构师训练营第一期 - 第周五课后 - 作业一

化身“监工”的AI，我们该如何相处？

甲方日常 37

极客大学架构师训练营2期第一周作业

创作场景

阿里巴巴发布新一代语音合成技术 KAN-TTS，成本降低 10 倍、周期缩短 3 倍

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载