写点什么

苹果公司透露 Siri 新发音引擎的内部原理

  • 2017-09-12
  • 本文字数:736 字

    阅读完需:约 2 分钟

苹果公司透露了他们通过深度学习让 Siri 的发音更加自然的内幕。

iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用 21 种语言回答问题,遍布全球 36 个国家。在 2017 年 WWDC 大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。2017 年 8 月,苹果的机器学习期刊透露了他们是如何让Siri 的发音更加自然的。

iPhone 上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台 iOS 设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

另一种方式是生成声波,而不是拼接预录的声音。2016 年 9 月, Alphabets Deepmind 发布了 WaveNet 引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri 不会在短时间使用合成语音代替录制语音。

查看英文原文: Apple Reveals the Inner Workings of Siri’s New Intonation

2017-09-12 19:002449
用户头像

发布了 322 篇内容, 共 147.3 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

“软件定义汽车”下的软件虚拟化技术

DevOps和数字孪生

如何利用 Milvus 实现多模态搜索

Zilliz

Milvus Zilliz 向量数据库 多模态搜索

免费试听 | 深圳测试开发线下周末班,从自动化到测试平台开发

测试人

软件测试

文献解读-Listeria monocytogenes personalized cancer vaccines drive therapeutic immune responses to cancer derived neoantigens

INSVAST

基因数据分析 生信服务

HarmonyOS NEXT 模拟登录页,华为账号一键登录

李洋-蛟龙腾飞

HarmonyOS NEXT

分布式数据库的进度管理:TiDB 备份恢复工具 PiTR 的原理与实践

PingCAP

AI与消费电子的双向奔赴,2024世界消费电子展值得一探!

AIOTE智博会

消费电子展 消费电子展会 消费电子展览会

零信任身份安全如何做到安全防护

芯盾时代

身份安全 零信任模型

数字样机:惯性导航系统控制单元仿真

DevOps和数字孪生

数字样机

从0到1:多服务厅预约小程序开发笔记(上)

CC同学

Sermant Backend配置管理功能在微服务治理场景中的应用

华为云开源

开源 微服务治理 sermant

测试要不要转岗产品经理?

老张

产品经理 软件测试 职业发展

1688电商数据化运营新篇章:深度解析阿里巴巴商品详情API返回值的应用

代码忍者

pinduoduo API API 性能测试

“探索端智能,加速大模型应用” 火山引擎边缘智能x扣子技术沙龙圆满落幕!

火山引擎边缘云

边缘计算 机器人 物联网, 智能IoT边缘服务 #大模型

从 RAG 到 KAG:我们将发布国内首个专业领域知识增强服务框架

可信AI进展

平凯星辰亮相 2024开放原子开源生态大会,分享开源教育及社区治理经验

PingCAP

万界星科技低代码云MES中的四大现场执行管理模式

万界星空科技

低代码 mes 万界星空科技 低代码mes 低代码云MES

以人为本的技术:如何发展工程文化并在发展中实现巨大飞跃

哦豁完蛋了

发展

VMware ESXi 8.0U3b macOS Unlocker & OEM BIOS 2.7 Dell HPE 定制版 9 月更新发布

sysin

esxi

第69期 | GPTSecurity周报

云起无垠

GIS、向量、文字检索...火山引擎ByteHouse集成全场景分析能力

字节跳动数据平台

大数据 数据仓库 云原生 向量检索

等保三级堡垒机基本要求简单概述以及厂商推荐

行云管家

堡垒机 等保测评 等保三级

分布式数据库的进度管理:TiDB 备份恢复工具 PiTR 的原理与实践

PingCAP

苹果公司透露Siri新发音引擎的内部原理_Apple_Roland Meertens_InfoQ精选文章