Facebook开源低延迟在线自动语音识别框架：速度更快，错误率更低_文化 & 方法_KHARI JOHNSON_InfoQ精选文章

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么

登录/注册

Facebook开源低延迟在线自动语音识别框架：速度更快，错误率更低

Facebook 人工智能研究院（FAIR）于当地时间 1 月 13 日表示，已经开源了基于深度学习的推理框架 wav2letter @ anywhere，该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。Wav2letter @ anywhere 是由 wav2letter 和 wav2letter ++这两个基于神经网络的语言模型构建的，在 2018 年 12 月发布时，Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统。

自动语音识别（ASR）可将语音转换为文本，然后推断出说话者的意图从而执行任务。wav2letter++存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型，如卷积神经网络（CNN）或递归神经网络（RNN），可以满足在线 ASR 所需的规模。

据纽约市实验室和 Menlo Park 总部的 8 名 Facebook 人工智能研究院研究员上周发布的一篇文章显示，Wav2letter@anywhere 的单词错误率优于由双向 LSTM RNNs 构成的两个基线模型。双向 LSTM RNNs 是目前被广泛使用的控制延迟的方法。

研究人员称：“该系统的吞吐量几乎是调整好的混合 ASR 基准的三倍，同时系统的延迟和错字率都更低。” “延迟控制双向 LSTM 通常用于在线语音识别，将未来 context 与卷积结合在一起可产生更准确、延迟更低的模型。我们发现 TDS 卷积可以在有限的未来 context 下维持较低的 WER。”

去年秋季，Facebook 在 2019 年 Interspeech 上提出了一个降低延迟并在 LibriSpeech（LibriSpeech 是一个收录了 1000 小时英语语音的数据集）上表现出优越性能的方法，该方法被称之为“时深可分离卷积（TBS）”。由于卷积声学模型——时深可分离卷积（TBS）模型的改善，低延迟取得有了一定进步。

用于语音推理的 CNN 和自然语言模型趋势相去甚远，自然语言模型更加聚焦递归神经网络或者像Google基于BERT的双向编码器这种基于 Transformer 的模型，或者追求更好的性能。可分离模型因其在计算机视觉领域的诸多应用而最闻名，例如谷歌的 MobileNet。

wav2letter@anywhere 是在 Pythia 图像和语言模型框架、wav2vec 在线语音识别和RoBERTa等新方法发布之后推出的（RoBERTa 是一款基于谷歌 BERT 的模型，在 2019 年夏天 GLUE benchmark 排行榜上，RoBERTa 攀升至第一位，但此后已跌至八位）。

wav2lette 项目地址：

https://github.com/facebookresearch/wav2letter

RoBERTa 项目地址：

https://github.com/brightmart/roberta_zh

原文链接：

https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/

评论

发布

暂无评论

OpenKruise v0.10.0 新特性 WorkloadSpread 解读

阿里巴巴云原生

阿里云容器云原生 OpenKruise Workload

架构师知识笔记3

『 JS算法-力扣557题』反转字符串中的单词 III

德育处主任

JavaScript 算法大前端 js js算法

JavaScript进阶（八）generator（生成器）实现

JavaScript 9月日更

23. 大部分工作将发生转变而非消失

公众服务常用电话号码大全

CANN 5.0硬核技术抢先看

华为云开发者联盟

架构 AI 计算 CANN 异构计算架构

第 3 章 -《Linux 一学就会》- 文件的基本管理和XFS 文件系统备份恢复

Linux 运维文件存储 linux云计算

EMQ 映云科技加入信通院可信开源社区共同体，加速共建开源生态

EMQ映云科技

云计算开源物联网开源社区信通院

架构实战课程模块四作业

VEGA：诺亚AutoML高性能开源算法集简介

华为云开发者联盟

机器学习 AutoML 网络结构 VEGA AutoML算法

干货打包！最新实时同步5大应用场景，4种实现方案分享（有彩蛋）

照妖镜纳米“相机”：让反应历程无处遁形

模块八作业一消息队列存储模型设计

#架构实战营

告别Kafka Stream，让轻量级流处理更加简单

阿里巴巴云原生

kafka 阿里云云原生 ETL

如何用 Java 判断一个给定的数是不是素数

JDK 内置命令行工具学习笔记二

把低代码开发平台推给开百货店的朋友，对他有帮助吗？

低代码小观

低代码企业企业管理管理者管理工具

Java 中的 NaN

WeTest云手机升级，支持iOS 15全新系统

技术分析| 音视频服务集群如何实现全球多中心化调度

anyRTC开发者

区块链音视频 WebRTC 中心化调度

车联万物，有Z-ONE SOA+AIoT！

SOA开发者平台

AIOT SOA 软件定义汽车 OTA

网络协议之:WebSocket的消息格式

程序那些事

网络协议 HTTP websocket 程序那些事

全球最大规模对话生成模型问世！百度发布PLATO-XL，让机器像人一样思考和对话

恒源云(GpuShare)_手把手教你如何终端登陆实例

爱奇艺 TensorFlow Serving 内存泄漏优化实践

爱奇艺技术产品团队

车联万物，有 Z-ONE SOA+AIoT！

软件定义汽车

精灵图在现代前端中到底有用没，css中显示和隐藏竟有两种不同方式

CSS JavaScript html css3 大前端

用明道云搭建一个住宅式物业管理系统

深入 iOS 静态链接器（一）— ld64

字节跳动终端技术

ios 移动终端火山引擎静态链接器

Linux创建/删除用户组