开工福利|免费学 2200+ 精品线上课,企业成员人人可得! 了解详情
写点什么

Facebook 开源低延迟在线自动语音识别框架:速度更快,错误率更低

  • 2020-01-14
  • 本文字数:1020 字

    阅读完需:约 3 分钟

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低

Facebook 人工智能研究院(FAIR)于当地时间 1 月 13 日表示,已经开源了基于深度学习的推理框架 wav2letter @ anywhere,该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。Wav2letter @ anywhere 是由 wav2letter 和 wav2letter ++这两个基于神经网络的语言模型构建的,在 2018 年 12 月发布时,Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统


自动语音识别(ASR)可将语音转换为文本,然后推断出说话者的意图从而执行任务。wav2letter++存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型,如卷积神经网络(CNN)或递归神经网络(RNN),可以满足在线 ASR 所需的规模。



据纽约市实验室和 Menlo Park 总部的 8 名 Facebook 人工智能研究院研究员上周发布的一篇文章显示,Wav2letter@anywhere 的单词错误率优于由双向 LSTM RNNs 构成的两个基线模型。双向 LSTM RNNs 是目前被广泛使用的控制延迟的方法。


研究人员称:“该系统的吞吐量几乎是调整好的混合 ASR 基准的三倍,同时系统的延迟和错字率都更低。” “延迟控制双向 LSTM 通常用于在线语音识别,将未来 context 与卷积结合在一起可产生更准确、延迟更低的模型。我们发现 TDS 卷积可以在有限的未来 context 下维持较低的 WER。”



去年秋季,Facebook 在 2019 年 Interspeech 上提出了一个降低延迟并在 LibriSpeech(LibriSpeech 是一个收录了 1000 小时英语语音的数据集)上表现出优越性能的方法,该方法被称之为“时深可分离卷积(TBS)”。由于卷积声学模型——时深可分离卷积(TBS)模型的改善,低延迟取得有了一定进步。


用于语音推理的 CNN 和自然语言模型趋势相去甚远,自然语言模型更加聚焦递归神经网络或者像Google基于BERT的双向编码器这种基于 Transformer 的模型,或者追求更好的性能。可分离模型因其在计算机视觉领域的诸多应用而最闻名,例如谷歌的 MobileNet。


wav2letter@anywhere 是在 Pythia 图像和语言模型框架、wav2vec 在线语音识别和RoBERTa等新方法发布之后推出的(RoBERTa 是一款基于谷歌 BERT 的模型,在 2019 年夏天 GLUE benchmark 排行榜上,RoBERTa 攀升至第一位,但此后已跌至八位)。


wav2lette 项目地址:


https://github.com/facebookresearch/wav2letter


RoBERTa 项目地址:


https://github.com/brightmart/roberta_zh


原文链接:


https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/


2020-01-14 16:573273

评论

发布
暂无评论
发现更多内容

2022年中国电商平台市场洞察

易观分析

电商 报告

计算机网络:数据链路层设备

timerring

计算机网络 11月月更 网桥

Bigkey问题的解决思路与方式探索

vivo互联网技术

redis dba bigkey

OpenHarmony 3.2 Beta多媒体系列——音视频播放框架

OpenHarmony开发者

OpenHarmony

度量BGP监测源数量对AS可见性的影响

郑州埃文科技

AS IP地址 BGP数据源

元器件科普|变压器的分类及形状构造

元器件秋姐

元器件采购 华秋商城 变压器 电感器 电压

提升80%上云集成效率, TA是如何做到的

华为云开发者联盟

云计算 后端 华为云 云集成

大模型狂欢背后:AI基础设施的“老化”与改造工程

OneFlow

人工智能 深度学习 大模型

算法题学习---删除有序链表中重复的元素-II

桑榆

算法题 11月月更

鸿蒙系统ARKUI框架对于分布式计算和请求API的实战研究

恒山其若陋兮

前端 11月月更

5分钟搭建图片压缩应用

华为云开发者联盟

云计算 后端 华为云 函数工作流

深度解析KubeEdge EdgeMesh 高可用架构

华为云开发者联盟

云计算 云原生 后端 华为云

【Ajax】如何通过axios发起Ajax请求

坚毅的小解同志

ajax 11月月更

API安全设计5A原则

阿泽🧸

11月月更 API安全

ArkUI框架基于鸿蒙系统的Scroll和Scroller和自定义组件之插槽的实战案例心得

恒山其若陋兮

前端 11月月更

“如何实现高效的应用交付”鲁班会开发者训练营厦门站进行时

华为云开发者联盟

云计算 软件开发 华为云 应用集成

信用卡评测系列——阳光惠生活APP深化服务客户品牌理念,焕新升级7.0版

易观分析

金融 银行 信用卡

不懂Hybird开发,感觉错过一个亿~

FinFish

小程序 前端框架 APP开发 APP软件开发、 混合开发

传输线路动态巡检探索

鲸品堂

网络 传输网络

一个宁静祥和没有bug的下午和SqlSession的故事

京东科技开发者

mybatis sql Spring Boot CLI SQLSession

【Ajax进阶】跨域和JSONP的学习

坚毅的小解同志

ajax 11月月更

解决数据分析落地难的几点经验

穿过生命散发芬芳

数据分析 11月月更

【web 开发基础】PHP 变量的作用范围 (29)

迷彩

作用域 静态变量 全局变量 局部变量 11月月更

基于Spring-AOP的自定义分片工具

京东科技开发者

aop 数据分片 spring aop 配置文件

【Ajax】全面了解http协议

坚毅的小解同志

HTTP 11月月更

跨平台桌面应用开发都有哪些主流框架

FinFish

小程序 跨端框架 桌面端开发 跨端应用开发

SpringBoot之用拦截器避免重复请求

okokabcd

Spring Boot

【愚公系列】2022年11月 微信小程序-应用生命周期和全局变量

愚公搬代码

11月月更

Go定时任务源码 - robfig/cron

人生如梦

Go 定时任务 cron

通过实战总结的 使用Go的小技巧

王中阳Go

Go golang 高效工作 学习方法 11月月更

基于鸿蒙系统的ArkUI框架的公共剪切类属性和多态样式在前后端分离项目中的表现

恒山其若陋兮

11月月更

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低_文化 & 方法_KHARI JOHNSON_InfoQ精选文章