Facebook开源低延迟在线自动语音识别框架：速度更快，错误率更低_文化 & 方法_KHARI JOHNSON_InfoQ精选文章

QCon北京「鸿蒙专场」火热来袭！即刻报名，与创新同行~ 了解详情 



 写点什么

登录/注册

Facebook开源低延迟在线自动语音识别框架：速度更快，错误率更低

Facebook 人工智能研究院（FAIR）于当地时间 1 月 13 日表示，已经开源了基于深度学习的推理框架 wav2letter @ anywhere，该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。Wav2letter @ anywhere 是由 wav2letter 和 wav2letter ++这两个基于神经网络的语言模型构建的，在 2018 年 12 月发布时，Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统。

自动语音识别（ASR）可将语音转换为文本，然后推断出说话者的意图从而执行任务。wav2letter++存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型，如卷积神经网络（CNN）或递归神经网络（RNN），可以满足在线 ASR 所需的规模。

据纽约市实验室和 Menlo Park 总部的 8 名 Facebook 人工智能研究院研究员上周发布的一篇文章显示，Wav2letter@anywhere 的单词错误率优于由双向 LSTM RNNs 构成的两个基线模型。双向 LSTM RNNs 是目前被广泛使用的控制延迟的方法。

研究人员称：“该系统的吞吐量几乎是调整好的混合 ASR 基准的三倍，同时系统的延迟和错字率都更低。” “延迟控制双向 LSTM 通常用于在线语音识别，将未来 context 与卷积结合在一起可产生更准确、延迟更低的模型。我们发现 TDS 卷积可以在有限的未来 context 下维持较低的 WER。”

去年秋季，Facebook 在 2019 年 Interspeech 上提出了一个降低延迟并在 LibriSpeech（LibriSpeech 是一个收录了 1000 小时英语语音的数据集）上表现出优越性能的方法，该方法被称之为“时深可分离卷积（TBS）”。由于卷积声学模型——时深可分离卷积（TBS）模型的改善，低延迟取得有了一定进步。

用于语音推理的 CNN 和自然语言模型趋势相去甚远，自然语言模型更加聚焦递归神经网络或者像Google基于BERT的双向编码器这种基于 Transformer 的模型，或者追求更好的性能。可分离模型因其在计算机视觉领域的诸多应用而最闻名，例如谷歌的 MobileNet。

wav2letter@anywhere 是在 Pythia 图像和语言模型框架、wav2vec 在线语音识别和RoBERTa等新方法发布之后推出的（RoBERTa 是一款基于谷歌 BERT 的模型，在 2019 年夏天 GLUE benchmark 排行榜上，RoBERTa 攀升至第一位，但此后已跌至八位）。

wav2lette 项目地址：

https://github.com/facebookresearch/wav2letter

RoBERTa 项目地址：

https://github.com/brightmart/roberta_zh

原文链接：

https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/

评论

发布

暂无评论

熬了一个月肝完这份阿里P8的Java面试手册，我从20K变成了30K

Java 面经校招春招八股文

卷起来了！阿里最新出品“微服务全阶笔记”，涵盖微服务全部操作

程序员小毕

Java 程序员微服务 SpringCloud springcloudAlibaba

我有一篇Java Stream使用手册，学了就是你的了！

做梦都在改BUG

使用 Metabase 连接 Databend Cloud 实现大屏展示

视频编辑场景下的文字模版技术方案

企业号 3 月 PK 榜视频编辑端渲染富文本素材

软件测试/测试开发丨app自动化测试之Appium WebView 技术原理

软件测试自动化测试测试开发 appium

Github点击破百万！这部《从零开始学架构》神书就此霸榜

Java 架构 ssm 面经架构实战

阿里是如何使用分布式架构的？阿里内部学习手册分享

分布式 ssm 分布式架构分布式实战

大顶堆的实现（基于数组存储的完全二叉树）

Java 二叉树 ssm 实战

JDK20正式发布了GA版本，短期维护支持，以及JDK21预览

小小怪下士

Java 程序员 jdk 后端

人工智能打造充满创造力的新世界，华为云开发者日无锡站成功举办

精品！阿里P7爆款《K8s+Jenkins》技术笔记，高质量干货必收藏

做梦都在改BUG

Java Kubernetes k8s jenkins

模块9作业

流批一体在 AI 核心电商领域的探索与实践

大数据 flink 实时计算

狂刷《Java权威面试指南（阿里版）》，冲击“金三银四”有望了

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

知乎三天点击破亿！四天精通springcloud微服务架构

微服务微服务架构 Spring Cloud 从分层架构到微服务架构

详解MyBatis加载映射文件和动态代理

做梦都在改BUG

太全了！马士兵内部共享—1658页《Java面试突击核心讲》

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

RabbitMQ 延迟消息实战

做梦都在改BUG

Java 消息队列消息中间件 Rabbit MQ

源码中常见的 where 1=1 是一种高级优化技巧？

Java 源码 ssm

即时通讯技术文集（第10期）：IM通信协议该选TCP还是UDP [共12篇]

喜讯：祝贺行云绽放荣获深圳市专精特新企业称号

云计算深圳专精特新

人工智能打造充满创造力的新世界，华为云开发者日无锡站成功举办

华为云开发者联盟

人工智能华为云元宇宙华为云开发者联盟企业号 3 月 PK 榜

JVM级别的本地缓存框架Guava Cache：探寻实现细节与核心机制

Java JVM ssm Guava Cache

C#/VB.NET：如何将PDF转为PDF/A

在下毛毛雨

C# .net PDF 文档转换 PDF/A

独家Java架构师题，面试再不过找我来要赔偿，谢谢

架构面试 ssm 面经 java实战

这一次，NineData新功能上线，真的是拼了

人工智能ｓｑｌ开发规范数据复制服务企业开发系统

医疗卫生机构等保测评法律依据有哪些？多久要测评一次？

机器学习算法（三）：基于horse-colic数据的KNN近邻(k-nearest neighbors)预测分类

汀丶人工智能

数据挖掘机器学习

机器学习算法（二）: 基于鸢尾花数据集的朴素贝叶斯(Naive Bayes)预测分类

汀丶人工智能

数据挖掘机器学习

五分钟带你学会微服务熔断原理分析与源码解读

微服务 ssm 微服务实战微服务熔断