写点什么

苹果公司透露 Siri 新发音引擎的内部原理

  • 2017-09-12
  • 本文字数:736 字

    阅读完需:约 2 分钟

苹果公司透露了他们通过深度学习让 Siri 的发音更加自然的内幕。

iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用 21 种语言回答问题,遍布全球 36 个国家。在 2017 年 WWDC 大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。2017 年 8 月,苹果的机器学习期刊透露了他们是如何让Siri 的发音更加自然的。

iPhone 上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台 iOS 设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

另一种方式是生成声波,而不是拼接预录的声音。2016 年 9 月, Alphabets Deepmind 发布了 WaveNet 引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri 不会在短时间使用合成语音代替录制语音。

查看英文原文: Apple Reveals the Inner Workings of Siri’s New Intonation

2017-09-12 19:002330
用户头像

发布了 322 篇内容, 共 143.3 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

Cloud Kernel SIG 月度动态:ANCK 全面首次支持龙芯架构、海光四号处理器,以及适配兆芯等最新进展

OpenAnolis小助手

操作系统 内核 龙蜥社区 龙蜥sig

高性能网络SIG月度动态:virtio 动态中断调节优化、多项内核网络缺陷修复

OpenAnolis小助手

操作系统 高性能网络 龙蜥社区SIG

一文读懂Partisia Blockchain,被严重低估的隐私区块链生态

威廉META

企业架构设计原则之业务导向性

凌晞

企业架构 架构设计 架构设计原则

构建多功能DApp项目:质押、私募、DeFi、分红等功能详解

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

npm,registry,镜像源,npm切换源,yarn,cnpm,taobao,nrs

CoderBin

npm 镜像源 Node 切换镜像源 npm镜像源

深入剖析JVM的OOM | 内存溢出如何影响JVM运行及应对策略

洛神灬殇

Java 性能优化 JVM 内存优化

酷睿Ultra下一代预览,Lunar Lake有惊人的100TOPS

E科讯

移动设备控制LED屏:无线技术与智能操作

Dylan

技术 电脑 设备 LED LED显示屏

企业架构设计原则之避免单行道

凌晞

企业架构 架构设计 架构设计原则

@开发者,龙蜥社区邀您参加 2024 OceanBase 开发者大会

OpenAnolis小助手

开源 操作系统 OceanBase 开源 开发者大会

4 月15-18 日,龙蜥社区与你相约北美开源峰会

OpenAnolis小助手

开源 操作系统 EROFS 北美开源峰会

Amazon Q:对话智能赋能企业发展

亚马逊云科技 (Amazon Web Services)

#人工智能

Partisia Blockchain:被严重低估的隐私区块链生态

石头财经

构建区块链质押挖矿系统:DApp质押挖矿系统开发需求详解

区块链软件开发推广运营

dapp开发 区块链开发 NFT开发 公链开发

查看自动类型推导结果的方法

爱分享

编辑器 代码规范 C++11 C++ modern C++

C++ 解引用与函数基础:内存地址、调用方法及声明

小万哥

程序人生 编程语言 软件工程 C/C++ 后端开发

一款自研Python解释器

芯动大师

龙蜥社区及开发者分获 2024 OS2ATC“最具影响力开源创新贡献和开源创新先锋”奖

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区

Anolis OS 23.1 Alpha2 预览版:内核配置升级与软件选型新进展

OpenAnolis小助手

开源 操作系统 龙蜥操作系统

放心使用!龙蜥全系产品均不受 XZ 后门影响

OpenAnolis小助手

操作系统 漏洞 龙蜥社区 龙蜥操作系统

浪潮信息-龙蜥技术认证上线!实战培训 10 个名额,限量报名

OpenAnolis小助手

开源 操作系统 龙蜥社区

手把手带你申请Sora内测资格,附申请提示词

蓉蓉

openai ChatGPT4 sora

一文读懂Partisia Blockchain,被严重低估的隐私区块链生态

BlockChain先知

探索社交App商机:视频直播App、语聊陪玩、1v1约会App必不可少

山东布谷科技胡月

短视频直播系统 1v1交友app开发 语聊平台 海外社交APP 短剧app开发

苹果公司透露Siri新发音引擎的内部原理_Apple_Roland Meertens_InfoQ精选文章