写点什么

明略科技 Blockformer 语音识别模型在 AISHELL-1 测试集上取得 SOTA 结果

  • 2022-09-14
    北京
  • 本文字数:1243 字

    阅读完需:约 4 分钟

明略科技Blockformer语音识别模型在AISHELL-1测试集上取得SOTA结果

深度学习已成功应用于语音识别,各种神经网络被大家广泛研究和探索,例如,深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和端到端的神经网络模型。


目前,主要有三种端到端的模型框架:神经网络传感器(Neural Transducer,NT),基于注意力的编码器-解码器(Attention-based Encoder Decoder,AED)和连接时序分类(Connectionist Temporal Classification,CTC)。


NT 是 CTC 的增强版本,引入了预测网络模块,可类比传统语音识别框架中的语言模型,解码器需要把先前预测的历史作为上下文输入。NT 训练不稳定,需要更多内存,这可能会限制训练速度。


AED 由编码器,解码器和注意力机制模块组成,前者对声学特征进行编码,解码器生成句子,注意力机制用来对齐编码器输入特征和解码状态。业内不少 ASR 系统架构基于 AED。然而,AED 模型逐个单元输出,其中每个单元既取决于先前生成的结果,又依赖后续的上下文,这会导致识别延迟。


另外,在实际的语音识别任务中,AED 的注意力机制的对齐效果,有时也会被噪声破坏。


CTC 的解码速度比 AED 快,但是由于输出单元之间的条件独立性和缺乏语言模型的约束,其识别率有提升空间。


目前有一些关于融合 AED 和 CTC 两种框架的研究,基于编码器共享的多任务学习,使用 CTC 和 AED 目标同时训练。在模型结构上,Transformer 已经在机器翻译,语音识别,和计算机视觉领域显示了极大的优势。


明略科技的语音技术负责人朱会峰介绍,明略团队重点研究了在 CTC 和 AED 融合训练框架下,如何使用 Transformer 模型来提高识别效果。



明略团队通过可视化分析了不同 BLOCK 和 HEAD 之间的注意力信息,这些信息的多样性是非常有帮助的,编码器和解码器中每个 BLOCK 的输出信息并不完全包含,也可能是互补的。(https://doi.org/10.48550/arXiv.2207.11697


基于这种观察,明略团队提出了一种模型结构,Block-augmented Transformer (BlockFormer),研究了如何以参数化的方式互补融合每个块的基本信息,实现了 Weighted Sum of the Blocks Output(Base-WSBO)和 Squeeze-and-Excitation module to WSBO(SE-WSBO)两种 block 集成方法。



Blockfomer with Base-WSBO



SE-WSBO


实验证明,Blockformer 模型在中文普通话测试集(AISHELL-1)上,不使用语言模型的情况下实现了 4.35%的 CER,使用语言模型时达到了 4.10%的 CER。





AISHELL-1 是希尔贝壳开源的中文普通话语音数据库,录音时长 178 小时,由 400 名中国不同地域说话人进行录制。Papers with Code网站显示,Blockformer 在 AISHELL-1 上取得 SOTA 的识别效果,字错率降低到 4.10%(使用语言模型时):https://paperswithcode.com/sota/speech-recognition-on-aishell-1


明略科技集团 CTO郝杰表示,明略的会话智能产品针对基于线上企微会话和线下门店会话的销售场景,语音识别团队聚焦美妆、汽车、教育等行业的场景优化和定制训练,但也不放松对通用语音识别新框架、新模型的探索,Blockformer 模型的这个 SOTA 效果为语音识别的定制优化提供了一个高起点。

2022-09-14 14:093764
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 544.1 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

android进阶篇04、MVC、MVP,腾讯大牛教你自己写Android框架

android 程序员 移动开发

Android面试|任何东西只要够深,都是一把刀!性能优化都没搞好就别想着去找对象了

android 程序员 移动开发

Android面经分享:我是如何拿到腾讯头条美团小米的offer从小厂跳到大厂的?

android 程序员 移动开发

Android面试反思:开发5年crud背景,惨遭字节阿里双挂,网站开发前后端分离

android 程序员 移动开发

一个程序员眼中的项目经理

神策技术社区

OKR 项目经理

Android面试指南(三),kotlin匿名内部类写法

android 程序员 移动开发

Android面试题之性能优化篇,当上项目经理才知道

android 程序员 移动开发

Android进阶:三、这一次,从入门到精通系列Android高级工程师路线介绍

android 程序员 移动开发

Android进阶:知识遗忘真的是程序员的通病吗?其实是这些新知识的学习方法你还没get到

android 程序员 移动开发

Android静态代码扫描效率优化与实践,2021大厂Android面试经历

android 程序员 移动开发

Android面经分享:从15K到32K,从小厂到大厂,android系统开发面试

android 程序员 移动开发

Android面试:计算机网络面试知识点系统总结,拔剑金九银十

android 程序员 移动开发

RPC就好像是谈一场异地恋

博文视点Broadview

Apache APISIX 社区周报 | 2021 10.15-10.31

API7.ai 技术团队

API网关 社区周报 Apache APISIX

Android面试题之性能优化篇(1),移动开发工程师的岗位职责

android 程序员 移动开发

android进阶篇09、电量与网络优化简述,android内存优化方案

android 程序员 移动开发

Android面试题之动画+事件处理篇,腾讯、美团Android面试经验分享

android 程序员 移动开发

android进阶篇11、crash监控与anr分析简述,vue双向绑定原理

android 程序员 移动开发

Android面试官:看你简历上写熟悉-AIDL,说一说-oneway-吧

android 程序员 移动开发

Android音视频--H,flutter小程序开发

android 程序员 移动开发

Android面试抱佛脚:进程间通讯学习,从Binder使用看起

android 程序员 移动开发

Android面试题之性能优化篇(2),安卓高级开发面试题

android 程序员 移动开发

Android面试:一个进程有多少个-Context-对象?看似初级的问题

android 程序员 移动开发

Android面试:计算机网络面试知识点系统总结,拔剑金九银十(1)

android 程序员 移动开发

Android进阶:最简单的方式实现自定义阴影效果,7年老Android一次坑爹的面试经历

android 程序员 移动开发

Android面试主题整理合集(一),android开发前景

android 程序员 移动开发

Android面试必备知识点:Android中Handler八大问题汇总

android 程序员 移动开发

Android面试必问之Binder进程间通信机制,大厂喜欢从哪些角度考你呢?看完这篇你就懂啦

android 程序员 移动开发

Android面试复盘:认真刷题,掌握原理很重要,【深夜思考】

android 程序员 移动开发

Android面试官,面试时总喜欢挖基础坑,整理了26道面试题牢固你基础

android 程序员 移动开发

Android面试题之Broadcast Receiver篇,你们觉得作为一名程序员最大的悲哀是什么

android 程序员 移动开发

明略科技Blockformer语音识别模型在AISHELL-1测试集上取得SOTA结果_AI&大模型_刘燕_InfoQ精选文章