写点什么

Amazon Polly 更新,时间驱动的韵律和异步合成

2019 年 10 月 22 日

Amazon Polly 更新,时间驱动的韵律和异步合成

希望您喜欢在本博客的最新文章中提供的由 Polly 加以支持的音频,这些文章包括 DeepLens 挑战赛Storage Gateway 概述。作为博客写作过程的一部分,我现在正聆听我的草稿博文的合成语音,以便更好地了解相关内容如何铺展。


今天,我们将推出 Amazon Polly 的两项新功能:


时间驱动的韵律

– 现在,您可以为同部分或全部输入文本相对应的合成语音指定所需的持续时间。


异步合成

– 现在,您可以处理大量文本,并在 Amazon S3 中使用单个调用存储合成的语音。


以上两种功能现已推出,您可以立即开始使用。我们来深入了解一下!


时间驱动的韵律

假设您正在创建一个多语言版本的视频或自行运行的演示文稿。在以一种语言编写脚本、录制视频之后,您使用 Amazon Translate 和 Amazon Polly 以其他语言创建音轨。为了使每种语言与视觉内容保持同步,您需要对每个片段的持续时间进行精细控制。这正是此新功能的用武之地。现在,您可以指定任何所需片段的最大所需持续时间,依靠 Polly 调整语速以限制每个片段的长度。


如果我使用 Amazon Polly 的 Joanna 语音并且不使用任何其他选项,以上段落会生成时长 19 秒的音频:


col 1col 2


Xml


<speak>  In order to keep each language in sync with the visual content,   you need to exercise fine-grained control over the duration of  each segment. That's where this new feature comes in. You can   now specify the maximum desired duration for any desired segments,   counting on Polly to adjust the speech rate in order to limit   the length of each segment.</speak>
复制代码


|


00:00
00:00


我可以使用 <prosody> 标签将时长限制为 15 秒:


col 1col 2


Xml


<speak>  <prosody amazon:max-duration="15s">    In order to keep each language in sync with the visual content,     you need to exercise fine-grained control over the duration of    each segment. That's where this new feature comes in. You can     now specify the maximum desired duration for any desired segments,     counting on Polly to adjust the speech rate in order to limit     the length of each segment. </prosody></speak>
复制代码


|


00:00
00:00


我可以使用多个 <prosody> 标签更精细地控制持续时间:


col 1col 2


Xml


<prosody amazon:max-duration="10s">    In order to keep each language in sync with the visual content,     you need to exercise fine-grained control over the duration of    each segment.   </prosody>  <prosody amazon:max-duration="7s">    That's where this new feature comes in. You can now specify     the maximum desired duration for any desired segments,     counting on Polly to adjust the speech rate in order to limit     the length of each segment. </prosody>
复制代码


|


00:00
00:00


我的英语文本的西班牙语版本(由 Amazon Translate 提供)要稍长一些,速度也明显加快:


col 1col 2


Xml


<speak>  <prosody amazon:max-duration="15s">    Para mantener cada idioma sincronizado con el contenido    visual, es necesario ejercer un control detallado sobre    la duración de cada segmento. Ahí es donde entra esta     nueva característica. Ahora puede especificar la     duración máxima deseada para los segmentos deseados,     contando con que Polly ajuste la velocidad de voz para     limitar la longitud de cada segmento. </prosody></speak>
复制代码


|


00:00
00:00


每个有时间限制的 <prosody> 标签内的文本字符数必须控制在 1500 个以内,并且不得嵌套(内部标签将被忽略)。为了确保音频依然容易理解,Polly 会将音频速度最高加快 5 倍。


异步合成

借助此功能,您可以使用异步请求一次处理具有多达 100000 个字符的文本,从而可更轻松地使用 Polly 为文章或书籍章节等长篇内容生成语音。系统会将合成后的语音传送至您选择的 S3 存储桶,并将失败通知有选择地路由至您选择的 Amazon Simple Notification Service (SNS) 主题。所生成的音频长度上限为 6 小时,并且通常在几分钟内即可准备就绪。除了具有 100000 个字符的文本外,每个请求还可以额外包含 100000 个字符的语音合成标记语言 (SSML) 标记。


每个异步请求都会创建一个新的语音合成任务。您可以通过 Polly 控制台、CLI (start-speech-synthesis-task) 或 API (StartSpeechSynthesisTask) 启动和管理任务。


为了测试此功能,我为自己撰写的已经完全过时的 AWS 书籍创建了纯文本版本,并插入了一些 SSML 标签,在此过程中将其变为有效的 XML。然后,我打开 Polly 控制台,单击文本到语音转换,粘贴该 XML,然后单击 Synthesize to S3(合成到 S3):



我输入 S3 存储桶的名称(该存储桶必须位于我计划创建任务的区域中),然后单击 Synthesize(合成) 以继续:



我的任务已创建:



我可以在任务列表中看到该任务:



在合成完毕后,我收到一封电子邮件:



而且,正如预期的那样,文件位于我的存储桶中:



我并未花很多时间进行标记,但结果却非常可观:


00:00
00:00


值得注意的是,这一章的大部分内容仍然具有重要意义。这本书的其余内容已经过时,最好就此尘封!也许以后我会再写一本。


总之,如您所看到和听到的,异步语音合成不仅功能强大,而且易于使用。何不试一试,构建一些酷炫的内容,然后跟我说说?


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/amazon-polly-update-time-driven-prosody-and-asynchronous-synthesis/


2019 年 10 月 22 日 08:00150

欲了解 AWS 的更多信息,请访问【AWS 技术专区】

评论

发布
暂无评论
发现更多内容

秒杀系统设计的挑战和问题(转载)

jorden wang

裸辞在家闭关,啃下这些面试笔记,终,拿到字节跳动4面offer

Crud的程序员

Java java面试 程序员面试

iOS 崩溃分析

ios 崩溃分析

App性能测试揭秘(Android篇)

应用研发平台EMAS

阿里云 软件测试 测试 性能测试 云性能测试

anyRTC加持AI,打造下一代实时音视频引擎

anyRTC开发者

人工智能 android 音视频 WebRTC RTC

KKR四币连发挖矿系统软件APP开发

开發I852946OIIO

系统开发

软件测试(功能、接口、性能、自动化)详解

测试人生路

软件测试

完全懵掉的电话面试

escray

面经 面试经历 101次面试 七日更 十日谈

SQL:我为什么慢你心里没数吗?

Java架构师迁哥

5. 穿过拥挤的人潮,Spring已为你制作好高级赛道

YourBatman

Spring Framework 类型转换 Converter

堪称完美!阿里架构师亲自手撕”Spring Boot实战笔记“用60个案例给你整的明明白白

比伯

Java 编程 程序员 架构 技术宅

带宽、延时、吞吐率、PPS 这些都是啥?

小林coding

Linux 操作系统 网络

BitQy交易所软件系统开发|BitQy交易所APP开发

开發I852946OIIO

干货时间:聊聊DevOps下的技术系列之契约测试

华为云开发者社区

DevOps 测试 交互

物联网打工人必备:LiteOS Studio图形化调测能力

华为云开发者社区

互联网 LiteOS 打工人

阿里工作6年,熬到P7就剩这份学习笔记了(汇聚六年经验总结),已助朋友拿到7个Offer

Java成神之路

Java 程序员 架构 面试 编程语言

【年终总结】mybatis常见注解

田维常

mybatis

还记得你的时间胶囊吗?

熊斌

个人成长 七日更

等不到明年金三银四了!五面滴滴之路,爆砍37K+16薪Offer

Java架构追梦

Java 学习 架构 面试 滴滴

Spring Cloud微服务实战

田维常

微服务

源码输出纯净版SSM架构,收藏直接CV使用它不香吗?

小Q

Java 学习 编程 面试 ssm

源码解析Synchronized同步方法的八种使用场景,收藏

996小迁

Java 源码 架构 面试 synchronized

被阿里、腾讯、华为追捧为最牛逼的 Java 框架你知道是什么吗?

Java架构师迁哥

2021年Java程序员请先把这几项硬技能熟悉掌握,再想着跳槽拿高薪。

Java成神之路

Java 程序员 架构 面试 编程语言

必须清除互联网世界的毒瘤:网络谣言背后存在病态心理

石头IT视角

源码解析Synchronized同步方法的八种使用场景,收藏

小Q

Java 学习 架构 面试 多线程

阿里技术官亲荐“998页的应届生面试手册”看完才发现,原来求职也没那么难!

比伯

Java 程序员 面试 编程语言 计算机

一文带你了解传统手工特征的骨龄评估方法的发展历史

华为云开发者社区

方法 骨龄 评估

字节跳动的这份《算法中文手册》火了,完整版PDF开放下载!不少小伙伴靠这份指南成功掌握了算法的核心技能,成功拿到了 BATJ等大厂offer。

Java成神之路

Java 程序员 架构 面试 编程语言

区块链商城系统开发模式制作

系统开发咨询:I76-883I-5I52 邓森

基于App SDK和API搭建无人自习室等无人场景

IoT云工坊

物联网 智慧琴房 24小时无人自习室 24小时自助游戏厅 共享办公室

演讲经验交流会|ArchSummit 上海站

演讲经验交流会|ArchSummit 上海站

Amazon Polly 更新,时间驱动的韵律和异步合成-InfoQ