写点什么

ICASSP Poster 论文:阿里提出深层前馈序列记忆神经网络,语音识别性能提升 20%

  • 2018-03-15
  • 本文字数:3973 字

    阅读完需:约 13 分钟

论文标题:基于深层前馈序列记忆神经网络的大词汇量连续语音识别 Deep-FSMN for Large Vocabulary Continuous Speech Recognition

团队:阿里巴巴语音交互智能团队

作者:张仕良 /Shiliang Zhang,雷鸣 /Ming Lei,鄢志杰 /Zhijie Yan, 戴礼荣 /LiRong Dai

会议:ICASSP-2018

摘要

本研究我们提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN)。进一步的我们将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了 LFR-DFSMN 语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升。而且 LFR-DFSMN 在训练速度,模型参数量,解码速度,而且模型的延时上相比于 BLSTM 都具有明显的优势。

研究背景

近年来, 深度神经网络成为了大词汇量连续语音识别系统中的主流声学模型。由于语音信号具有很强的长时相关性,因而目前普遍流行的是使用具有长时相关建模的能力的循环神经网络(RNN),例如 LSTM 以及其变形结构。循环神经网络虽然具有很强的建模能力,但是其训练通常采用 BPTT 算法,存在训练速度缓慢和梯度消失问题。我们之前的工作,提出了一种新颖的非递归的网络结构,称之为前馈序列记忆神经网络(feedforward sequential memory networks, FSMN),可以有效的对信号中的长时相关性进行建模。相比于循环神经网络,FSMN 训练更加高效,而且可以获得更好的性能。

本论文,我们在之前 FSMN 的相关工作的基础上进一步提出了一种改进的 FSMN 结构,称之为深层的前馈序列记忆神经网络(Deep-FSMN, DFSMN)。我们通过在 FSMN 相邻的记忆模块之间添加跳转连接(skip connections),保证网络高层梯度可以很好的传递给低层,从而使得训练很深的网络不会面临梯度消失的问题。进一步的,考虑到将 DFSMN 应用于实际的语音识别建模任务不仅需要考虑模型的性能,而且需要考虑到模型的计算量以及实时性。针对这个问题,我们提出将 DFSMN 和低帧率(lower frame rate,LFR)相结合用于加速模型的训练和测试。同时我们设计了 DFSMN 的结构,通过调整 DFSMN 的记忆模块的阶数实现时延的控制,使得基于 LFR-DFSMN 的声学模型可以被应用到实时的语音识别系统中。

我们在多个大词汇量连续语音识别任务包括英文和中文上验证了 DFSMN 的性能。在目前流行的 2 千小时英文 FSH 任务上,我们的 DFSMN 相比于目前主流的 BLSTM 可以获得绝对 1.5% 而且模型参数量更少。在 2 万小时的中文数据库上,LFR-DFSMN 相比于 LFR-LCBLSTM 可以获得超过 20% 的相对性能提升。而且 LFR-DFSMN 可以灵活的控制时延,我们发现将时延控制到 5 帧语音依旧可以获得相比于 40 帧时延的 LFR-LCBLSTM 更好的性能。

FSMN 回顾

最早提出的 FSMN 的模型结构如图 1(a)所示,其本质上是一个前馈全连接神经网络,通过在隐层旁添加一些记忆模块(memory block)来对周边的上下文信息进行建模,从而使得模型可以对时序信号的长时相关性进行建模。FSMN 的提出是受到数字信号处理中滤波器设计理论的启发:任何无限响应冲击(Infinite Impulse Response, IIR)滤波器可以采用高阶的有限冲击响应(Finite Impulse Response, FIR)滤波器进行近似。从滤波器的角度出发,如图 1(c)所示的 RNN 模型的循环层就可以看作如图 1(d)的一阶 IIR 滤波器。而 FSMN 采用的采用如图 1(b)所示的记忆模块可以看作是一个高阶的 FIR 滤波器。从而 FSMN 也可以像 RNN 一样有效的对信号的长时相关性进行建模,同时由于 FIR 滤波器相比于 IIR 滤波器更加稳定,因而 FSMN 相比于 RNN 训练上会更加简单和稳定。

图 1. FSMN 模型结构以及和RNN 的对比

根据记忆模块编码系数的选择,可以分为:1)标量FSMN(sFSMN);2)矢量FSMN(vFSMN)。sFSMN 和 vFSMN 顾名思义就是分别使用标量和矢量作为记忆模块的编码系数。sFSMN 和vFSMN 记忆模块的表达分别如下公式:

以上的FSMN 只考虑了历史信息对当前时刻的影响,我们可以称之为单向的FSMN。当我们同时考虑历史信息以及未来信息对当前时刻的影响时,我们可以将单向的FSMN 进行扩展得到双向的FSMN。双向的sFSMN 和vFSMN 记忆模块的编码公式如下:

这里\(N_1\) 和\(N_2\) 分别代表回看(look-back) 的阶数和向前看(look-ahead) 的阶数。我们可以通过增大阶数,也可以通过在多个隐层添加记忆模块来增强FSMN 对长时相关性的建模能力。

图 2. cFSMN 结构框图

FSMN 相比于 FNN,需要将记忆模块的输出作为下一个隐层的额外输入,这样就会引入额外的模型参数。隐层包含的节点越多,则引入的参数越多。我们通过结合矩阵低秩分解(Low-rank matrix factorization)的思路,提出了一种改进的 FSMN 结构,称之为简洁的 FSMN(Compact FSMN,cFSMN)。如图 2 是一个第 _l_ 个隐层包含记忆模块的 cFSMN 的结构框图。

对于 cFSMN,通过在网络的隐层后添加一个低维度的线性投影层,并且将记忆模块添加在这些线性投影层上。进一步的,cFSMN 对记忆模块的编码公式进行了一些改变,通过将当前时刻的输出显式的添加到记忆模块的表达中,从而只需要将记忆模块的表达作为下一层的输入。这样可以有效的减少模型的参数量,加快网络的训练。具体的,单向和双向的 cFSMN 记忆模块的公式表达分别如下:

DFSMN 介绍

图 3. Deep-FSMN (DFSMN) 模型结构框图

如图3 是我们进一步提出的Deep-FSMN(DFSMN)的网络结构框图,其中左边第一个方框代表输入层,右边最后一个方框代表输出层。我们通过在cFSMN 的记忆模块(红色框框表示)之间添加跳转连接(skip connection),从而使得低层记忆模块的输出会被直接累加到高层记忆模块里。这样在训练过程中,高层记忆模块的梯度会直接赋值给低层的记忆模块,从而可以克服由于网络的深度造成的梯度消失问题,使得可以稳定的训练深层的网络。我们对记忆模块的表达也进行了一些修改,通过借鉴扩张(dilation)卷积[3] 的思路,在记忆模块中引入一些步幅(stride)因子,具体的计算公式如下:

其中\(\widetilde{P}^{l-1}_t\) 表示第\(l-1\) 层记忆模块第t 个时刻的输出。\(s_1\) 和\(s_2\) 分别表示历史和未来时刻的编码步幅因子,例如\(s_1=2\) 则表示对历史信息进行编码时每隔一个时刻取一个值作为输入。这样在相同的阶数的情况下可以看到更远的历史,从而可以更加有效的对长时相关性进行建模。对于实时的语音识别系统我们可以通过灵活的设置未来阶数来控制模型的时延,在极端情况下,当我们将每个记忆模块的未来阶数都设置为0,则我们可以实现无时延的一个声学模型。对于一些任务,我们可以忍受一定的时延,我们可以设置小一些的未来阶数。

LFR-DFSMN 声学模型

目前的声学模型,输入的是每帧语音信号提取的声学特征,每帧语音的时长通常为 10ms,对于每个输入的语音帧信号会有相对应的一个输出目标。最近有研究提出一种低帧率(Low Frame Rate,LFR)建模方案:通过将相邻时刻的语音帧进行绑定作为输入,去预测这些语音帧的目标输出得到的一个平均输出目标。具体实验中可以实现三帧(或更多帧)拼接而不损失模型的性能。从而可以将输入和输出减少到原来的三分之一甚至更多,可以极大的提升语音识别系统服务时声学得分的计算以及解码的效率。我们结合 LFR 和以上提出的 DFSMN,构建了如图 4 的基于 LFR-DFSMN 的语音识别声学模型,经过多组实验我们最终确定了采用一个包含 10 层 DFSMN 层 +2 层 DNN 的 DFSMN 作为声学模型,输入输出则采用 LFR,将帧率降低到原来的三分之一。

图 4. LFR-DFSMN 声学模型结构框图

实验结果

1) 英文识别

我们在 2 千小时的英文 FSH 任务上验证所提出的 DFSMN 模型。我们首先验证了 DFSMN 的网络深度对性能的影响,我们分别验证了 DFSMN 包含 6,8,10,12 个 DFSMN 层的情况。最终模型的识别性能如下表。通过增加网络的深度我们可以获得一个明显的性能提升。

我们也和一些主流的声学模型进行了对比,结果如下表。从结果看DFSMN 相比于目前最流行的BLSTM 不仅参数量更少,而且性能上可以获得1.5% 的绝对性能提升。

2) 中文识别

关于中文识别任务,我们首先在 5000 小时任务上进行实验。我们分别验证了采用绑定的音素状态(CD-State)和绑定的音素(CD-Phone)作为输出层建模单元。关于声学模型我们对比了时延可控的 BLSTM(LCBLSTM),cFSMN 以及 DFSMN。对于 LFR 模型,我们采用 CD-Phone 作为建模单元。详细的实验结果如下表:

对于基线LCBSLTM,采用LFR 相比于传统的单帧预测在性能上相近,优点在效率可以提升3 倍。而采用LFR 的cFSMN,相比于传统的单帧预测不仅在效率上可以获得相应提升,而且可以获得更好的性能。这主要是LFR 一定程度上破坏了输入信号的时序性,而BLSTM 的记忆机制对时序性更加的敏感。进一步的我们探索了网络深度对性能的影响,对于之前的cFSMN 网络,当把网络深度加深到10 层,会出现一定的性能下降。而对于我们最新提出来的DFSMN,10 层的网络相比于8 层依旧可以获得性能提升。最终相比于基线的LFR-LCBLSTM 模型,我们可以获得超过20% 的相对性能提升。

下表我们对比了LFR-DFSMN 和LFR-LCBLSTM 的训练时间,以及解码的实时因子(RTF)。从结果上看我们可以将训练速度提升3 倍,同时可以将实时因子降低到原来的接近三分之一。

对于语音识别系统,另外一个需要考虑的因素是模型的延迟问题。原始的BLSTM 需要等接收整句话后才能得到输出用于解码。LCBLSTM 是目前的一种改进结构,可以将解码的时延进行控制,目前采用的LFR-LCBLSTM 的时延帧数是40 帧。对于DFSMN,时延的帧数可以功过设计记忆模块的滤波器阶数进行灵活控制。最终当只有5 帧延时时,LFR-DFSMN 相比于LFR-LCBLSTM 依然可以获得更好的性能。

如果您也有论文被国际顶会录用或者对论文编译整理工作感兴趣,欢迎关注 AI前线(ai-front),在后台留下联系方式,我们将与您联系,并进行更多交流!

2018-03-15 17:456463

评论

发布
暂无评论
发现更多内容

StoneDB顺利通过中科院软件所 2023 开源之夏 结项审核

StoneDB

MySQL 数据库 HTAP StoneDB

外包的鄙视链,背后原因是什么

老张

外包 竞争力 核心竞争力

APM建设踩了哪些坑?去哪儿旅行分布式链路追踪系统实践

TakinTalks稳定性社区

同城双机房公网环境下搭建TIDB集群

TiDB 社区干货传送门

数据库架构设计

CodeWhisperer--手把手教你使用一个十分强大的工具

亚马逊云科技 (Amazon Web Services)

Python 人工智能 云上探索实验室 Amazon CodeWhisperer Amazon Cloud9

精彩回顾|从架构到实践,AntDB融合型数据库揭秘

亚信AntDB数据库

数据库 AntDB AntDB数据库

从商业增长到自然增长,OPPO广告联盟为开发者开辟增长新路径

极客天地

KiCon Asia 2023完美落幕,助力Kicad生态繁荣,华秋在行动

华秋电子

kicad

微众银行 TiDB HTAP 和自动化运维实践

TiDB 社区干货传送门

实践案例

TiDB x CAPCOM丨为在线游戏提供灵活、可靠、可扩展的数据库服务

TiDB 社区干货传送门

实践案例

TiDB Cloud 上 Tiflash 列存功能初体验

TiDB 社区干货传送门

版本测评 性能测评 新版本/特性解读

TiDB x 云盛海宏丨加速精细化运营,云海零售系统的架构演进

TiDB 社区干货传送门

实践案例

为何选择独立服务器?稳定、高效、安全等优势一览

一只扑棱蛾子

独立服务器

故障发现、定位提效超70%,去哪儿可观测体系做了哪些优化?

TakinTalks稳定性社区

任福继院士:基于交叉学科的研究将成主流,算力平台和计算人才是自主创新关键

极客天地

更快更省更好用!天翼云云原生一体机iStack打通物云最后一公里!

极客天地

华为云GaussDB助力工商银行、华夏银行斩获“十佳卓越实践奖”

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

TiDB 在安信证券资产中心与极速交易场景的实践

TiDB 社区干货传送门

实践案例

微信团队分享:详解iOS版微信视频号直播中因帧率异常导致的功耗问题

JackJiang

网络编程 即时通讯 IM

欢迎提报 | 2023年龙蜥社区优秀贡献者评选正式启动

OpenAnolis小助手

开源 操作系统 龙蜥社区 最佳案例 突出贡献

LED显示屏防护等级知识讲解

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家 等级

来文心中国行厦门站,感受大模型落地生花的进展!

飞桨PaddlePaddle

文心一言 文心中国行

一张图厘清各大操作系统的发展脉络

巫山老妖

Gitlab配置mirrorRepository 镜像仓库

javaNice

Java gitlab

万界星空科技云MES管理系统和ERP的对接

万界星空科技

数字化转型 mes 云mes 万界星空科技 万界星空科技mes

同城双机房公网+阿里云ECS搭建混合云TIDB集群

TiDB 社区干货传送门

数据库架构设计

如何搞砸一场面试?

王磊

Java 面试

体验函数计算 FC 3.0,写测评赢取索尼头戴式耳机

Serverless Devs

云计算 Serverless AIGC

ICASSP Poster论文:阿里提出深层前馈序列记忆神经网络,语音识别性能提升20%_语言 & 开发_张仕良_InfoQ精选文章