开工福利|免费学 2200+ 精品线上课,企业成员人人可得! 了解详情
写点什么

苹果公司透露 Siri 新发音引擎的内部原理

  • 2017-09-12
  • 本文字数:736 字

    阅读完需:约 2 分钟

苹果公司透露了他们通过深度学习让 Siri 的发音更加自然的内幕。

iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用 21 种语言回答问题,遍布全球 36 个国家。在 2017 年 WWDC 大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。2017 年 8 月,苹果的机器学习期刊透露了他们是如何让Siri 的发音更加自然的。

iPhone 上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台 iOS 设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

另一种方式是生成声波,而不是拼接预录的声音。2016 年 9 月, Alphabets Deepmind 发布了 WaveNet 引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri 不会在短时间使用合成语音代替录制语音。

查看英文原文: Apple Reveals the Inner Workings of Siri’s New Intonation

2017-09-12 19:002354
用户头像

发布了 322 篇内容, 共 143.9 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

菜单栏图标管理软件推荐 Bartender最新激活版

mac大玩家j

Mac软件 菜单栏管理工具 菜单栏工具

找不到想找的图片?半小时,帮你实现一个AI版“图片搜索引擎”

鹤涵

Redis 核心技术与实战 openai AIGC ChatGPT

开源漏洞共享平台及安全奖励计划正式发布

开放原子开源基金会

Java 开源 程序员 开发者 算法

微服务的学习与实践 主赛道:技术人的 2023 总结

Echo_Wish

微服务 云原生 年度总结 2023 技术总结

openEuler商业化进展可观:累计装机量超610万套,市场持续扩容

彭飞

一文搞懂Android和嵌入式Linux开发差异点

巫山老妖

大数据之云平台的使用与总结 主赛道:技术人的 2023 总结

Echo_Wish

大数据 云平台 年度总结 2023 开天平台

关于Stable Diffusion模型优化分享

AI Stable Diffustion

活动 | Mint Blockchain 将于 2024 年 1 月 10 号启动 MintPass 限时铸造活动

NFT Research

blockchain NFT Pass

打破多APP困境,WorkPlus统一入口让企业协同更高效

BeeWorks

敏捷任务拆解、工作量评估和指派

laofo

Scrum 敏捷 敏捷开发 研发效能 持续交付

开放原子开源基金会与9个开源项目举行捐赠签约仪式

开放原子开源基金会

Java 开源 程序员 开发者 算法

Merlin Protocol,一个专业的比特币生态资产适配协议

TerpLayer

区块链

专业的磁盘管理工具:DiskCatalogMaker 中文激活版

胖墩儿不胖y

Mac软件 磁盘管理工具 磁盘清理管理

总结:我在技术写作中踩过的 6 个坑

Java 工程师蔡姬

技术人 21 天技术人写作行动营

WorkPlus即时通讯app-私有化部署的最佳解决方案

BeeWorks

PWM 调光的线性降压 LED 恒流驱动器

芯动大师

openEuler社区与9大海外开源基金会深入合作,构建全球开源新生态

彭飞

Raw图像处理推荐 Capture One Pro 23中文最新版

胖墩儿不胖y

Mac软件 raw图像 raw图像处理工具

简约好用的Markdown文本编辑器:Typora中文激活版

mac大玩家j

文本编辑器 Mac软件 markdown编辑

和鲸科技CEO范向伟受邀出席港航数据要素流通与生态合作研讨会,谈数据资产入表的战略机会

ModelWhale

数据 数据资产 数据要素 港航

WorkPlus即时通讯软件,带来更轻松、高效的沟通体验

BeeWorks

WorkPlus高效助力企业沟通的专业级即时通讯软件

BeeWorks

C 语言教程:数据类型和格式说明符

小万哥

c 程序员 软件 后端 开发

欧拉与AI深度结合:操作系统升级带来全新智能体验

彭飞

苹果公司透露Siri新发音引擎的内部原理_Apple_Roland Meertens_InfoQ精选文章