写点什么

Amazon Polly – 支持 47 种语音与 24 种语言的文本到语音转换服务

  • 2019-11-19
  • 本文字数:1670 字

    阅读完需:约 5 分钟

Amazon Polly – 支持47种语音与24种语言的文本到语音转换服务

在准备写下这篇文章时,我的思绪不禁回到了自己的孩提时代(那时候大部分时间都用在了看电视上)。上世纪六十到七十年代,出现了大批热门的计算机与机器人语音产品。一瞬间,哈尔-9000、B9(来自〈迷失太空〉)、初代《星际旅行》中的计算机以及罗茜(来自〈摩登家庭〉)等形象再次涌现在我眼前。那个时候,人们都热衷于这种机械生成的语音——声音精准、清晰且缺乏人类应有的情感。


时间快速推进,如今我们已经拥有大量出色的计算机生成语音应用及用例可供选择,业界将其称为文本到语音或者简称 TTS 功能。娱乐、游戏、公共发布系统、电子学习、电话、辅助应用及设备乃至个人助手都已经开始将其引入。其中大部分应用能够很好地对接移动环境,但本地处理及存储型方案则表现平平。

你好, Polly

为了解决此类用例的实际需求(当然也包括其它大家能够想到的场景),我们推出了Polly,这项云服务能够将文本转化为逼真的语音,并允许大家将其用于您的工具及应用程序当中。Polly 目前支持总计 47 种男声/女声表达并涵盖 24 种语言(暂不支持中文),而更多语言及语音选项亦在路线图规划之中。


Polly 的设计目标在于解决语音生成工作中的大部分常见挑战。举例来说,我们以“live”一词为例,“I live in Seattle”代表我生活在西雅图,而“Live from New York”则代表由纽约发回的现场直播,二者在意义上显然存在差别。Polly 能够理解这种同一词汇在不同语境下的含义,并给出完全不同的发音。类似的例子还有“St.”。根据语言类别及上下文背景的不同,其可以代表(或者应该发音为)“Street(街道)”或者“saint(圣)”。Polly 同样能够准确识别二者间的差别。另外,Polly 亦能够处理单位、分数、缩写、货币、日期、时间以及其它复杂的语言成分与表达方式。


为了实现这一目标,我们与以 Polly 支持的目标语言为母语的语言专家们进行合作。我们要求每位参与者利用其选定的语种提供大量单词与短语发音,并将音频拆分为声音单元,即双音素。


Polly 在处理普通文本时拥有良好表现。大家只需要提交文本,Polly 即可顺利完成接下来的工作,即以音频文件或者流媒体的方式给出精准、自然且与人类相似的语音表达。对于其它更为复杂的应用,大家可以使用SSML(即语音合成标记语言)为 Polly 提供更多附加信息。举例来说,如果您的文本内容中包含多种语言(例如英语与法语混杂),则可利用 SSML 作出标记以纠正发音。


在本文中我无法直接提供相关语音片段,因此感兴趣的朋友可以直接访问Polly Consolehttps://console.aws.amazon.com/polly)并亲自加以尝试。大家只需要输入文本内容并点击Listen to speech(听取语音)即可:



大家也可以将生成的音频保存在 MP3 文件并将其运用于您的应用程序当中。


以下为完全展开的语言与地区菜单:


技术细节

通过 Console 使用 Polly 当然非常便利,不过大家也可以采取其它方式以实现更具动态的使用途径。大家可以在文本或者 SSML 当中调用SynthesizeSpeech API 函数。大家可以直接将输出结果以流媒体形式直接交付至用户,或者生成 MP3 或 Ogg 文件以备需要时播放。Polly 能够以 MP3 或者 Vorbis 格式生成高质量(最高采样率为 22 kHz)音频,亦可以 PCM 格式生成电话质量级(8 kHz)音频。


大家也可以利用 AWS 命令行界面(CLI)生成音频。例如:



Polly 会对全部闲置数据进行加密,并通过 SSL 连接进行音频传输。所提交文本与提交者间的关联将被移除,以加密形式存储最多 6 个月,并被用于维护及改进 Polly 功能。

价格与上线时间

大家每月可以利用 Polly 处理 500 万字而无需支付任何费用。在此之后,每个字的处理价格为 0.000004 美元,或者折合为音频生成约为每分钟 0.004 美元。本篇博文的语音转换价格约为 0.018 美元,而《哈克贝利-费恩历险记》全文的语音转换亦仅需约 2.4 美元。


Polly目前已经在美国东部(北弗吉尼亚州)、美国西部(俄勒冈州)、美国东部(俄亥俄州)以及欧洲(爱尔兰)服务区上线,大家可以从今天开始加以使用。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/polly-text-to-speech-in-47-voices-and-24-languages/


2019-11-19 08:00967

评论

发布
暂无评论
发现更多内容

JVM—解析运行期优化与JIT编译器

做梦都在改BUG

Java JVM JIT

如何通过财务共享推进财务精细化管理

用友BIP

财务共享

太香了!Alibaba内部架构师进阶指南,理论+实践双飞

做梦都在改BUG

Java 架构

太牛了!腾讯T9耗时69天整理出最全架构师进阶核心知识点笔记

做梦都在改BUG

Java

四川师范大学何云:事项法会计从五大方面助力企业创造价值

用友BIP

智能会计 价值财务 事项法会计

浅析财务共享各阶段面临的挑战

用友BIP

财务共享

国内半导体分立器件逐步向高端应用市场推进,未来可期

华秋电子

5000 字手把手实战|Kubernetes+极狐GitLab CI,获得极致 CI/CD 体验

极狐GitLab

Kubernetes DevOps 微服务 k8s CI/CD

用友与临港集团签署战略合作协议

用友BIP

国资国企数智化转型

开发敏捷高效 | 云原生应用开发与运维新范式

CODING DevOps

DevOps 云原生 CODING DevOps 开发运维 敏捷高效

厦门狄耐克:助推智慧医疗,需要夯实自身的技术底座

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

更快速、更高效的键盘操作方式尽在Superkey Mac版~

真大的脸盆

Mac Mac 软件 键盘增强软件

500行代码代码手写docker-将rootfs设置为只读镜像

蓝胖子的编程梦

Docker 云原生 k8s #k8s Docker 镜像

软件测试 | 软件需求的层次

测吧(北京)科技有限公司

测试

跪了!Alibaba内部优质Springboot笔记:两大项目实战+源码解析

做梦都在改BUG

Java spring 微服务 Spring Boot 框架

华为云CodeArts Snap 智能编程助手PyCharm插件安装与使用指南

华为云PaaS服务小智

编码 插件 智能编程

深入浅出微服务:40个微服务架构实战案例(Dubbo+Springcloud)

做梦都在改BUG

Java 微服务 Spring Cloud

软件测试的误解有哪些?

测吧(北京)科技有限公司

测试

属实不赖!Alibaba开源GitHub星标114K微服务架构全彩进阶手册

Java你猿哥

Java 架构 微服务 微服务架构 ssm

Github上星标55.9k的微服务神仙笔记真的太香了

做梦都在改BUG

Java 架构 微服务 Spring Cloud 设计模式

用友协办国有资本投资运营公司第八次圆桌会议, 展示数智国资发展新路径

用友BIP

国资国企数智化转型

秒杀系统常见问题—如何避免库存超卖?

做梦都在改BUG

秒杀系统 电商超卖

阿里全新推出:微服务突击手册,把所有操作都写出来了|超清PDF

Java你猿哥

Java spring Spring Cloud ssm Ribbon

专业解读财务共享实现财务数智化转型的有效路径

用友BIP

财务共享

软件测试的分类

测吧(北京)科技有限公司

测试

SpringBoot 实现启动项目后立即执行方法的几种方式

Java你猿哥

源码 jdk Spring Boot ssm

池州控股集团财务共享项目启动啦!

用友BIP

财务共享

惊喜!华秋DFM软件升级,新功能让你爱不释手

华秋电子

低代码平台简介(10家国产化低代码平台详细介绍)

优秀

低代码开发平台 低代码平台

如何将千亿文件放进一个文件系统,EuroSys'23 CFS 论文背后的故事

Baidu AICLOUD

文件存储 元数据

Amazon Polly – 支持47种语音与24种语言的文本到语音转换服务_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章