写点什么

阿里巴巴发布新一代语音合成技术 KAN-TTS,成本降低 10 倍、周期缩短 3 倍

  • 2019-07-10
  • 本文字数:963 字

    阅读完需:约 3 分钟

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍

TTS 是语音合成的一种方式,即文字转语音(Text-To-Speech),早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER,是一种利用共振峰原理所制作的合成器。


1960 年,瑞典语言学家 G. Fant 则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来 1980 年代 Moulines E 和 Charpentier F 提出新的语音合成算法 PSOLA,此技术可以合成比较自然的语音。


在 7 月 9 日阿里巴巴的一场分享会上,达摩院语音实验室高级算法专家雷鸣进行了有关语音合成技术的分享,他认为:“我们目前所处的阶段是一个合成语言大变革的阶段,主要的特点是大家都希望能够提供一个非常接近于真人表现的合成语音,可喜的是,语音合成的质量进步很快。”


阿里巴巴发布的“新一代语音合成技术”KAN-TTS(Knowledge-Aware Neural TTS),由达摩院机器智能实验室自主研发。 阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85%到 90%之间,而基于 KAN-TTS 技术的合成语音可将该数据提高到 97%以上。


据了解,该技术深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术,从多个方面改进了语音合成。



KAN-TTS 的基本框图


传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。


阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法,将语音合成定制成本降低 10 倍以上,周期压缩 3 倍以上。也就是说,用 1 小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。



构建多发音人语音合成系统的方式


普通用户定制“AI 声音”的门槛更低。阿里方面介绍称:只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。


据了解,阿里已经对外提供开箱即用的 TTS 解决方案,共有通用、客服、童声、英文和方言 5 个场景的 34 种高品质声音供选择。


基于新一代技术,阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用,比如当人们驾车行驶于信号微弱区域,阿里技术能避免语音导航“掉线”。


2019-07-10 18:159953
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 289.6 次阅读, 收获喜欢 1303 次。

关注

评论

发布
暂无评论
发现更多内容

在线教育≠在线观看:风变科技应用无影打造自动化实训教学模式

云布道师

无影

NFT游戏藏品开发DApp系统搭建

薇電13242772558

NFT

软件测试|教你如何用Python获取昨天今天明天的日期

霍格沃兹测试开发学社

先巩固下 Java 线程这些基础操作,再开始多线程编程也不迟

Java你猿哥

Java 多线程 开发

【中远海运特运】WeOps产品为业务系统安全稳定保驾护航!

嘉为蓝鲸

一文带你掌握轻量化模型设计原则和训练技巧!

Openlab_cosmoplat

工业互联网 开源社区 轻量化模型 openlab

打造江西数智产业高地,百度飞桨人工智能产业赋能中心落户南昌青山湖

百度开发者中心

人工智能 百度飞桨

直播回顾 | 告警全生命周期管理的思路与落地实践

嘉为蓝鲸

IT

如何分析网站监控中的数据报表,都有哪些关键信息?

云智慧AIOps社区

监控 监控宝 云智慧 监控安全 网站监控

对象存储BOS: 通过安卓SDK使用HTTPDNS服务

百度开发者中心

对象存储

触达率提升 20%,融云推送优化实践

融云 RongCloud

产品 实践 融云

嘉为科技与工银科技正式启动数字研运一体化合作项目

嘉为蓝鲸

软件测试 | 黑盒测试方法—因果图法

测吧(北京)科技有限公司

测试

如何通过C#/VB.NET从PowerPoint文档中提取图片

在下毛毛雨

C# .net PowerPoint 提取图像

与高校开发者面对面,昇腾AI开发者创享日首次走进沈阳高校

科技热闻

Python十大实用技巧【附源码】

我爱娃哈哈😍

Python 开发技巧

丝滑的打包部署,一套带走

Java你猿哥

Java Docker ssm 部署

共36万字!为上岸Alibaba,我把Github上Java面试题都整理了一遍

Java你猿哥

Java Spring Boot ssm 面经 春招

12家辽宁AI领先企业加入昇腾万里伙伴计划

科技热闻

WeOpsV3.15持续拓展监控能力,支持硬件设备IPMI智能监控

嘉为蓝鲸

IT

2021年第十一届数据技术嘉年华(DTC)资料分享

墨天轮

数据库 GaussDB TiDB 国产数据库 南大通用

信通院MLOps旗舰级评测,业内首批通过!

百度开发者中心

人工智能 深度学习‘’ 文心一言

【广州银行信用卡中心】5分钟实现一键发布!

嘉为蓝鲸

IT

研云运一体,嘉为蓝鲸助力中国智造扬帆出海!

嘉为蓝鲸

IT

阿里三面46题:java高级+数据库+网络+架构设计!含答案大赠送!

Java你猿哥

Java 阿里巴巴 后端 面经 春招

人工智能深入油气领域 百度智能云与石化盈科共建合同智能化应用平台

百度开发者中心

人工智能

软件测试/测试开发丨数据持久化技术(Python)的使用

测试人

软件测试 自动化测试 测试开发

Spring生态简介

Java你猿哥

Java spring Spring Boot 后端 ssm

xx产品介绍

andy

唯一入选的制品库!嘉为蓝鲸CPack制品管理平台成功入选!

嘉为蓝鲸

IT

软件测试/测试开发丨聊聊后端Web开发框架(Python)的简单使用

测试人

软件测试 自动化测试 测试开发

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍_AI&大模型_陈思_InfoQ精选文章