语音识别一直是苹果迫切需要关注的领域。其跨平台 Siri 虚拟助手已服务了全球 5 亿多客户。因此,优化语音触发检测、说话者识别和多个说话者语言识别的技术成为苹果亟待解决的问题。
过去一周,科技巨头苹果发表了一系列预印本研究论文,旨在优化语音触发检测、说话者识别和多个说话者语言识别的技术。
(编者注:预印本研究论文是指科研工作者的研究成果指尚未经过同行评议,还未在正式出版物上发表,而出于和同行交流目的自愿先在学术会议上或通过互联网发布的科研论文、科技报告等文章。)
说话者识别和语音触发检测
在论文的第一部分,苹果研究人员提出了一种训练好的 AI 模型,可同时执行自动语音识别和说话者识别的任务。正如研究人员在论文摘要中所解释的那样,基于语音个人助手识别的指令通常以触发短语(例如,“嘿,Siri”)为前缀,检测该触发短语涉及两个步骤:首先,AI 需要判断输入音频中的语音内容是否与触发短语的语音内容相匹配(语音触发检测);其次,AI 还需判断说话者的语音与注册用户或用户的语音是否匹配(说话者识别)。
这两个任务通常被分开来看,但是论文的合著者认为,对说话者的了解可能有助于判断声音信号中的语音内容,反之亦然,这有助于对这两种属性进行评估。
研究人员设计了三套能够学习语音和说话者信息的模型,并对一组数据集进行训练,这组数据集包含 1.6 万多小时的带注释的样本,其中 5000 小时的音频带有语音标签(其余的仅带有说话者标签)。
此外,实验还邀请了 100 多位说话者使用智能扬声器设备在一系列声学设置中为语料库贡献声音,包括安静的房间、来自房间内电视或厨房设备的外部噪音,以及用录音机大声播放音乐。同时,来自电视和广播的 2000 个小时不包含触发短语的连续音频记录也被添加进来,以此来测量“误报”率。
经过测试,这类模型展示出了学习语音和说话者信息的能力,且在同等数量参数条件下,每个任务的精准性与基线模型相差无几。实际上,在提出的三个模型中,其中一个在“多个”设置中的表现优于说话者识别基线,在执行与本文不相关的任务时比基线提高了 7.6%。
研究人员写道:“这些结果有个有趣的特征——训练模型时使用的是不相交的数据集,即每个音频样本要么具有语音标签,要么具有说话者标签,每个音频样本不会同时具有两个标签。通过对结果的观察,研究人员提出了一种灵活的设计,可以通过连接不同任务的训练数据去训练多个相关任务的模型,而不是为每个训练样本获取多个标签。从实际的角度来看,这样做能实现两个任务之间的计算共享,从而节省设备上的内存、缩短计算时间或等待时间,并能节省消耗的电量/电池。”
错误触发缓解
一项补充研究中减少了错误触发的出现,在任务中,语音助手有意忽略了像 Siri 这样的语音助手的语音。
合著者表示,他们使用了一种运行在图结构上的 AI 模型——图神经网络(GNN),其中每个节点都与标签相关联,目标是在没有实际事实的情况下预测节点的标签,这样做能减少 87%的错误触发。他们写道:“语音触发的智能助手在开始收听用户请求之前通常依赖于对触发短语的检测……错误触发通常源自背景噪声或听起来与触发短语相似的语音。” “减少错误触发是构建以隐私为中心的非侵入式智能助手的重要一环。”
未来,该团队计划将基于 GNN 的处理扩展到用户意图分类等其他任务中。
多语种说话者识别
在另一篇论文中,苹果研究人员探索了一种专门针对多语言说话者的语音识别系统。他们表示,语言识别系统对大多数语言的识别准确率比较高,但是,当同时识别多种语言时,语音识别系统的表现就差强人意了。
事实也的确如此。在《华盛顿邮报》委托进行的一项研究中显示,市面上流行的由谷歌和亚马逊开发的智能音箱,识别本土用户的语音准确度比识别非美式口音准确度高出了 30%。事实证明,像 Switchboard 这样的语料库更偏向于测量来自本国特定地区的说话者的语音,该语料库是 IBM 和 Microsoft 等公司用来评估语音模型错误率的数据集。
为解决这一问题,合著者将使用模式相关内容整合到听写系统中,该听写系统能识别出 60 多个地区的说话者的语音。声学子模型将根据语音信号传递的内容进行预测,上下文感知预测组件分析各种交互上下文信号,通过这两方面的预测,来选择最佳的单语种自动语音识别系统。
包含了发出听写请求情况下的相关信息,包括有关已划定听写区域、当前选择的听写区域以及用户在发出请求之前是否切换了听写区域的信息。重要的是,在语音信号很短的情况下,它们能依靠声学模型生成可靠的预测。例如,如果用户安装了英语和德语,那么像“naln”这样的短且模糊的语句在德语中可能被识别为否定词“nein”,而在英语中被识别为数字“nine"。
为了评估该系统,研究人员开发了一个称为“平均用户准确度”(AUA)的自定义指标,他们表示,该指标可以更好地反映模型中的“说话者发音水平”使用模式。通过对多语言说话者的 12.8 万个带有相应交互上下文的口述话语内部语料库进行严格训练,在所有语言组合中,它的平均准确率达到 87%,而相对于基线,最坏情况下的准确率也提高了 60%以上。值得一提的是,为平衡设备上运行模型的计算负载的准确性和延迟,研究团队对参数进行了调整,调整后,平均延迟从 2 秒减少到 1.2 秒,而对 AUA 的影响不超过 0.05%。
评论