写点什么

Deep Speech:百度硅谷人工智能实验室利用单学习算法实现英语和汉语识别

  • 2016-01-05
  • 本文字数:1518 字

    阅读完需:约 5 分钟

百度研究院是百度公司的一个部门(NASDAQ:BIDU),近日公布了其硅谷人工智能实验室(SVAIL)的一项新的研究成果,被称为 Deep Speech2。Deep Speech 通过使用一个单一的学习算法具备准确识别英语和汉语的能力。其成果已经发表在相关论文中: Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

去年的时候,百度的首席科学家 Andrew Ng 博士以及由 Awni Hannun 领导的 10 人研究团队在美国康奈尔大学图书馆网站上称,他们已经开发出了一种新的,更为准确的语音识别系统 Deep Speech,该系统使用了端对端的深度学习技术。Andrew Ng 表示,百度 Deep Speech 主要专注于提高嘈杂环境(例如,餐馆、汽车和公共交通)下的英语语音识别的准确率。它在噪音环境中(比如汽车内和人群之中)的表现更为突出。在噪音环境下,测试显示百度 Deep Speech 系统的出错率要比谷歌 Speech API,Wit.AI,微软 Bing Speech 以及苹果 Dictation 低 10% 多。

在过去的一年中,SVAIL 的研究人员提高了英语语音识别的表现,现在已经开始训练汉语。在许多情况下,汉语版本的语音识别已经实现了相当高的精确度,该系统现已可以大范围应用于真实世界中,比如移动设备上的网络搜索。

语音识别是一项越来越重要的技术,已经被用于苹果语音助手 Siri、语音输入功能 Dictation 以及谷歌语音搜索中。过去二十年中,语音识别技术取得了显著的进步,已经开始从实验室走向市场。语音识别技术,也称为自动语音识别,其目标是将人类的语音中的词汇内容转化为计算机可读的输入。以前的主流的语音识别技术多采用模式识别依赖于大规模数据的获取和高性能计算技术的发展,深度学习(Deep Learning)已经取得了举世瞩目的成绩。目前,端到端的深度学习现在已经成为语音识别最重要的手段。而百度正是采用了这种技术。

“SVAIL 已经表明,这种终到端(end-to-end)的深度学习方法可以用来识别各种不同的语言”,Andrew Ng 博士表示,“我们的做法的关键是我们使用了高性能计算技术,这导致现在的计算速度是去年同期的 7 倍,在这个时候。正因为如此高效的速度,过去需要数周的实验现在几天之内就可以完成。这让我们可以实现更快的迭代”。

在这篇研究论文中,SVAIL 也提到 Deep Speech 可以处理来自全世界各地的不同的英语口音。目前,这样的处理对于移动设备上现有的流行的语音系统是非常具有挑战性的。

“通过使用批处理技术将 DNNs 部署在 GPUs 上,Deep Speech 的语音识别实现了非常高的效率,我对此印象深刻”,NVIDIA 的首席科学家 Bill Dally 博士在谈到 Deep Speech 的高性能计算架构的时候表示,“Deep Speech 在 16 个 GPU 上训练卷积神经网络(RNNs)取得不可思议的突破”。

面对各种不同的英语口音(如印度英语口音,以及那些英语不是第一语言的欧洲国家的英语口音),Deep Speech 都取得了飞速的进步。

当 Deep Speech 去年刚刚启动的时候,我就预见到了它的潜力”,卡耐基梅隆大学助理教授 Ian Lane 表示,“今天,在一个相对短的时间内,Deep Speech 已经取得了显著的进步。使用一个单一的端到端系统,它不仅仅能够处理英语,还可以处理汉语,而且目前还在进一步研究在产品中使用。对于百度使用的批处理调度过程,以及将大的深度神经网络部署在云计算服务器中的 GPU 上的方式,我非常感兴趣”。

相信随着 Deep Speech 的大范围部署,广泛应用于移动装置的语音识别系统将遭受此系统的巨大冲击。


感谢董志南对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2016-01-05 18:004356
用户头像

发布了 268 篇内容, 共 122.6 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

创新引领・数创未来 | 数据流通与治理专题论坛交流会顺利召开

郑州埃文科技

Go 语言中的 Slice 陷阱:如何避免常见错误

陈明勇

Go golang 切片 三周年连更 切片陷阱

winDbg 提示 Unable to verify checksum for IOCommModel.exe

linux大本营

网络安全 数字证书

linux crash怎么分析

linux大本营

Crash Linux内核

koal_dm8_crypto.so.1.0.9.x86.b6f523 怎么安装

linux大本营

Linux linux文件

【Python实战】XPath采集数据

BROKEN

三周年连更

Gradle工程适配为Hvigor工程

坚果

OpenHarmony 三周年连更

AI大模型加速RPAxAI时代到来,谁会是RPA领域的杀手级应用?

王吉伟频道

RPA AI大模型 ChatGPT RPAxAI 企业级RPA

arm m4 xpsr每一位的作用

linux大本营

寄存器 arm

【Linux】iptables之防火墙概述及规则匹配+实例(1)

A-刘晨阳

Linux iptables 防火墙规则 三周年连更

领先企业的数智化进入2.0阶段,需要升级数智底座

用友BIP

uniapp配置基本的tabbar和动态修改内容

格斗家不爱在外太空沉思

uni-app 三周年连更

什么叫函数的注册,用c++举个例子

linux大本营

c++ 函数

创建和管理复杂的项目:OmniPlan Pro 4 mac中文版

真大的脸盆

Mac Mac 软件 项目管理工具 项目流程软件

想转行计算机但不知道转哪个方面比较好?

linux大本营

软件开发 计算机

ChatGPT安全受质疑 网信办发布生成式人工智能服务管理办法意见稿

郑州埃文科技

面试必考: 手撕代码系列(一)

Immerse

JavaScript 手写代码 前端面试 手撕代码 超全前端面试题

缓解过拟合方法

linux大本营

/sbin/kexec参数说明

linux大本营

Linux 镜像 Linux内核

SpringBoot之Tomcat与Undertow容器性能对比 | 超级详细,建议收藏

bug菌

tomcat 三周年连更 Undertow

C++grpc 服务器接收到请求后如何处理

linux大本营

gRPC 序列化 protobuf C++

linux tee命令

linux大本营

linux命令 TEE

基于Java+Dubbo设计的智能公交查询系统

DS小龙哥

三周年连更

ES开发指南|如何快速上手ElasticSearch

浅羽技术

全文检索 搜索 Lucence Elastic Search 三周年连更

delphi中TServerSocker使用stThreadBlocking模式的例子

linux大本营

@PathVariable 和 @RequestParam 的区别

linux大本营

ubuntu安装kernel-debuginfo

linux大本营

强大的音频分析编辑工具:Amadeus Pro 汉化激活版

真大的脸盆

Mac Mac 软件 音频编辑 音频处理工具 编辑音频

火山引擎云原生数据仓库ByteHouse技术白皮书V1.0 (Ⅴ)

字节跳动数据平台

数据仓库 云原生 白皮书 企业号 4 月 PK 榜

leaflet加载聚合

linux大本营

stl中,cbegin,cend,crbegin,crend区别以及用途

linux大本营

容器 stl C++ STL

Deep Speech:百度硅谷人工智能实验室利用单学习算法实现英语和汉语识别_百度_张天雷_InfoQ精选文章