写点什么

Facebook 开源低延迟在线自动语音识别框架:速度更快,错误率更低

  • 2020-01-14
  • 本文字数:1020 字

    阅读完需:约 3 分钟

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低

Facebook 人工智能研究院(FAIR)于当地时间 1 月 13 日表示,已经开源了基于深度学习的推理框架 wav2letter @ anywhere,该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。Wav2letter @ anywhere 是由 wav2letter 和 wav2letter ++这两个基于神经网络的语言模型构建的,在 2018 年 12 月发布时,Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统


自动语音识别(ASR)可将语音转换为文本,然后推断出说话者的意图从而执行任务。wav2letter++存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型,如卷积神经网络(CNN)或递归神经网络(RNN),可以满足在线 ASR 所需的规模。



据纽约市实验室和 Menlo Park 总部的 8 名 Facebook 人工智能研究院研究员上周发布的一篇文章显示,Wav2letter@anywhere 的单词错误率优于由双向 LSTM RNNs 构成的两个基线模型。双向 LSTM RNNs 是目前被广泛使用的控制延迟的方法。


研究人员称:“该系统的吞吐量几乎是调整好的混合 ASR 基准的三倍,同时系统的延迟和错字率都更低。” “延迟控制双向 LSTM 通常用于在线语音识别,将未来 context 与卷积结合在一起可产生更准确、延迟更低的模型。我们发现 TDS 卷积可以在有限的未来 context 下维持较低的 WER。”



去年秋季,Facebook 在 2019 年 Interspeech 上提出了一个降低延迟并在 LibriSpeech(LibriSpeech 是一个收录了 1000 小时英语语音的数据集)上表现出优越性能的方法,该方法被称之为“时深可分离卷积(TBS)”。由于卷积声学模型——时深可分离卷积(TBS)模型的改善,低延迟取得有了一定进步。


用于语音推理的 CNN 和自然语言模型趋势相去甚远,自然语言模型更加聚焦递归神经网络或者像Google基于BERT的双向编码器这种基于 Transformer 的模型,或者追求更好的性能。可分离模型因其在计算机视觉领域的诸多应用而最闻名,例如谷歌的 MobileNet。


wav2letter@anywhere 是在 Pythia 图像和语言模型框架、wav2vec 在线语音识别和RoBERTa等新方法发布之后推出的(RoBERTa 是一款基于谷歌 BERT 的模型,在 2019 年夏天 GLUE benchmark 排行榜上,RoBERTa 攀升至第一位,但此后已跌至八位)。


wav2lette 项目地址:


https://github.com/facebookresearch/wav2letter


RoBERTa 项目地址:


https://github.com/brightmart/roberta_zh


原文链接:


https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/


2020-01-14 16:573261

评论

发布
暂无评论
发现更多内容

OpenHarmony开发者大会2024:解读技术革新,共筑生态互联

Geek_2d6073

win版Navicat Premium(多连接数据库管理开发) v17.0.4 特别版

iMac小白

华为大咖说 | 企业应用AI大模型的“道、法、术”—— 法:场景篇

华为云PaaS服务小智

人工智能 华为云 企业数字化

业技融合:“业、产、研”一体的需求管理指南

嘉为蓝鲸

DevOps 研发管理 产研团队

大模型应用之基于Langchain的测试用例生成

京东科技开发者

低代码能砸掉程序员的饭碗吗?

高端章鱼哥

为何都在谈低代码?快速了解低代码技术在ITSM中的应用

嘉为蓝鲸

低代码 ITSM 流程管理

一文看懂可观测:盯得住系统,扛得住稳定

阿里巴巴云原生

阿里云 云原生 可观测

走进京东“卓越研效架构师”首期研习营圆满收官

京东科技开发者

滴滴面试:谈谈你对Netty线程模型的理解?

王磊

活动预告|6月13日Apache Flink Meetup·香港站

Apache Flink

flink Alibaba

Pandas数据读取三连“坑”

我再BUG界嘎嘎乱杀

Python 后端 开发语言

Python零基础“圣经”!300W小白从入门到精通首选!

我再BUG界嘎嘎乱杀

Python 入门 零基础

JSON vs XML:比较及分析

Liam

json xml 前端 Web 后端

一文简述「低代码」到底是什么?

优秀

低代码 低代码开发平台 低代码平台

聊聊python多线程与多进程

我再BUG界嘎嘎乱杀

Python 后端 多线程 多进程

一文搞懂 MySQL 日志

快乐非自愿限量之名

MySQL

开发体育赛事直播平台新增“趣猜比分”功能增强用户粘性和引流

软件开发-梦幻运营部

为什么比特币需要智能合约

区块链开发团队DappNetWork

代码生成流程图!画图必备的3款AI流程图软件推荐!

彭宏豪95

人工智能 流程图 流程图绘制工具 AIGC 绘图软件

一键解锁!贸易行业实现银行与财务系统秒级对接,效率飙升!

聚道云软件连接器

案例分享

省运营商构建松耦合IT运营监控支撑体系

嘉为蓝鲸

研发管理 敏捷管理 运营商 IT运维

机器学习的六个核心算法!

不在线第一只蜗牛

人工智能 机器学习 算法

同济大学胡维老师分享经管科研范式变革下的工具与实践|和鲸社区“101数智领航计划”

ModelWhale

科研 同济大学 经济与管理

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低_文化 & 方法_KHARI JOHNSON_InfoQ精选文章