写点什么

苹果公司透露 Siri 新发音引擎的内部原理

  • 2017-09-12
  • 本文字数:736 字

    阅读完需:约 2 分钟

苹果公司透露了他们通过深度学习让 Siri 的发音更加自然的内幕。

iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用 21 种语言回答问题,遍布全球 36 个国家。在 2017 年 WWDC 大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。2017 年 8 月,苹果的机器学习期刊透露了他们是如何让Siri 的发音更加自然的。

iPhone 上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台 iOS 设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

另一种方式是生成声波,而不是拼接预录的声音。2016 年 9 月, Alphabets Deepmind 发布了 WaveNet 引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri 不会在短时间使用合成语音代替录制语音。

查看英文原文: Apple Reveals the Inner Workings of Siri’s New Intonation

2017-09-12 19:002231
用户头像

发布了 322 篇内容, 共 139.9 次阅读, 收获喜欢 145 次。

关注

评论

发布
暂无评论
发现更多内容

Java常用类大讲解!1️⃣(手写API、源码必备)

XiaoLin_Java

1月月更

架构实战营 - 模块 4 课后作业

tony

C#种Dispose和Close有什么不同

喵叔

1月月更

千万级学生管理系统的考试试卷存储方案

糖糖学编程

架构实战营

040022-week2-algorithm

InfoQ_70156470130f

学习Python一年,这次终于弄懂了浅拷贝和深拷贝

宇宙之一粟

Python 浅拷贝和深拷贝 1月月更

模块四作业

Anlumina

架构实战

给前端的docker 10分钟真 · 快速入门指南

久违

Docker Vue 前端

架构实战营第 4 期 -- 模块六作业

烈火干柴烛灭田边残月

架构实战营

学习总结 2021.12.31

mj4ever

学习笔记

模块四课程作业

李晓笛

【架构实战营】模块四:命题作业

wgl

「架构实战营」

架构实战营模块四作业

lchx08

「架构实战营」

【架构实战营】模块四:知识点总结

wgl

「架构实战营」

Linux之chgrp命令

入门小站

架构实战营-模块四作业

木几丶

「架构实战营」

架构实战营:模块五作业

Poplar

「架构实战营」

千万级学生管理系统的考试试卷存储方案

AUV

「架构实战营」

关注和欣赏孩子们

圣迪

孩子 自驱型成长 抑郁症

模块四作业-考试试卷存储方案

CH

架构实战营 #架构实战营

作业:架构实战营模块 4

Poplar89

「架构实战营」

模块四作业

cqyanbo

架构实战 模块四作业

mj4ever

架构实战

架构实战训练营-模块6-作业

温安适

「架构实战营」

架构实战营模块四作业

zhongwy

「架构实战营」

架构训练营 - 模块四作业

伊静西蒙

模块四作业

novoer

「架构实战营」

架构师第四课作业

墨宝

09 Prometheus之可靠性及可扩展性

穿过生命散发芬芳

Prometheus 1月月更

架构训练营模块四作业

沈益飞

架构训练营 架构师训练营 4 期

ArrayList与Vector比较

JavaEdge

1月月更

苹果公司透露Siri新发音引擎的内部原理_Apple_Roland Meertens_InfoQ精选文章