速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

Deep Speech:百度硅谷人工智能实验室利用单学习算法实现英语和汉语识别

  • 2016-01-05
  • 本文字数:1518 字

    阅读完需:约 5 分钟

百度研究院是百度公司的一个部门(NASDAQ:BIDU),近日公布了其硅谷人工智能实验室(SVAIL)的一项新的研究成果,被称为 Deep Speech2。Deep Speech 通过使用一个单一的学习算法具备准确识别英语和汉语的能力。其成果已经发表在相关论文中: Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

去年的时候,百度的首席科学家 Andrew Ng 博士以及由 Awni Hannun 领导的 10 人研究团队在美国康奈尔大学图书馆网站上称,他们已经开发出了一种新的,更为准确的语音识别系统 Deep Speech,该系统使用了端对端的深度学习技术。Andrew Ng 表示,百度 Deep Speech 主要专注于提高嘈杂环境(例如,餐馆、汽车和公共交通)下的英语语音识别的准确率。它在噪音环境中(比如汽车内和人群之中)的表现更为突出。在噪音环境下,测试显示百度 Deep Speech 系统的出错率要比谷歌 Speech API,Wit.AI,微软 Bing Speech 以及苹果 Dictation 低 10% 多。

在过去的一年中,SVAIL 的研究人员提高了英语语音识别的表现,现在已经开始训练汉语。在许多情况下,汉语版本的语音识别已经实现了相当高的精确度,该系统现已可以大范围应用于真实世界中,比如移动设备上的网络搜索。

语音识别是一项越来越重要的技术,已经被用于苹果语音助手 Siri、语音输入功能 Dictation 以及谷歌语音搜索中。过去二十年中,语音识别技术取得了显著的进步,已经开始从实验室走向市场。语音识别技术,也称为自动语音识别,其目标是将人类的语音中的词汇内容转化为计算机可读的输入。以前的主流的语音识别技术多采用模式识别依赖于大规模数据的获取和高性能计算技术的发展,深度学习(Deep Learning)已经取得了举世瞩目的成绩。目前,端到端的深度学习现在已经成为语音识别最重要的手段。而百度正是采用了这种技术。

“SVAIL 已经表明,这种终到端(end-to-end)的深度学习方法可以用来识别各种不同的语言”,Andrew Ng 博士表示,“我们的做法的关键是我们使用了高性能计算技术,这导致现在的计算速度是去年同期的 7 倍,在这个时候。正因为如此高效的速度,过去需要数周的实验现在几天之内就可以完成。这让我们可以实现更快的迭代”。

在这篇研究论文中,SVAIL 也提到 Deep Speech 可以处理来自全世界各地的不同的英语口音。目前,这样的处理对于移动设备上现有的流行的语音系统是非常具有挑战性的。

“通过使用批处理技术将 DNNs 部署在 GPUs 上,Deep Speech 的语音识别实现了非常高的效率,我对此印象深刻”,NVIDIA 的首席科学家 Bill Dally 博士在谈到 Deep Speech 的高性能计算架构的时候表示,“Deep Speech 在 16 个 GPU 上训练卷积神经网络(RNNs)取得不可思议的突破”。

面对各种不同的英语口音(如印度英语口音,以及那些英语不是第一语言的欧洲国家的英语口音),Deep Speech 都取得了飞速的进步。

当 Deep Speech 去年刚刚启动的时候,我就预见到了它的潜力”,卡耐基梅隆大学助理教授 Ian Lane 表示,“今天,在一个相对短的时间内,Deep Speech 已经取得了显著的进步。使用一个单一的端到端系统,它不仅仅能够处理英语,还可以处理汉语,而且目前还在进一步研究在产品中使用。对于百度使用的批处理调度过程,以及将大的深度神经网络部署在云计算服务器中的 GPU 上的方式,我非常感兴趣”。

相信随着 Deep Speech 的大范围部署,广泛应用于移动装置的语音识别系统将遭受此系统的巨大冲击。


感谢董志南对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2016-01-05 18:004369
用户头像

发布了 268 篇内容, 共 123.1 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

云管理用哪家云管平台厂商好?从哪些方面来看?

行云管家

云计算 云资源 云管理 云成本

NFTScan | 05.29~06.04 NFT 市场热点汇总

NFT Research

带你走进大数据 | 写给小白的大数据指南

Data 探险实验室

大数据 数据分析 数据处理 数据存储 数据发展

NineData,稳定、高效的Redis数据同步解决方案

NineData

redis 数据同步 迁移数据 数据同步工具 NineData

Simple Date Format类到底为啥不是线程安全的?

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟 企业号 6 月 PK 榜

GreatSQL 8.0.32-24 今日发布

GreatSQL

MySQL greatsql greatsql社区 MySQL生态

软件测试/测试开发丨App自动化测试学习笔记分享

测试人

程序员 软件测试 测试开发 app自动化测试

从入门到精通,阿里内部手抄微服务架构笔记,看完感觉我又行了!

做梦都在改BUG

Java 架构 微服务 Spring Cloud spring cloud alibaba

入职阿里?最少啃完这本500页Java并发多线程源码笔记

程序知音

Java 并发编程 多线程 高并发 后端技术

SpringBoot升级所踩过的坑(一)

技术小生

6 月 优质更文活动

MySQL对derived table的优化处理与使用限制

GreatSQL

MySQL greatsql社区

基于STM32+华为云IOT设计的智能温室大棚监控系统

DS小龙哥

6 月 优质更文活动

测试同学职场成长的核心认知

老张

职场成长 认知

全面数据管理 DBeaverUltimate最新中文安装包

真大的脸盆

Mac 数据库管理工具 数据库管理 Mac 软件 管理数据库

什么样的企业需要建设财务共享服务中心?

用友BIP

财务共享

手把手实践丨基于STM32+NBIOT+华为云IOT设计智能井盖

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 6 月 PK 榜 智能井盖

2023秋招Java 面试必刷的1200 道Java大厂面试真题(含答案解析)

采菊东篱下

java面试

Spring Security安全框架在Spring Boot框架中的使用

做梦都在改BUG

Java Spring Boot spring security 权限管理

财务共享管理体系助力企业卓越发展

用友BIP

财务共享

GitHub标星137k+,超全面Java知识点总结!从10K到40K全有了

做梦都在改BUG

Java

LED广告牌企业的突破点在哪?

Dylan

技术 分辨率 LED LED显示屏 led显示屏厂家

大型企业数智化关键举措太难懂?这本数智平台白皮书带你秒理解

用友BIP

白皮书 数智平台 平台白皮书 数智平台白皮书

踩坑:以为是Redis缓存没想到却是Spring事务!

做梦都在改BUG

Java redis spring 缓存 事务

卡牌游戏系统开发web3链游技术

薇電13242772558

web3 链游

Maven Could not find artifact com.ruoyi:ruoyi-framework:pom:3.8.5 in public

Andy

5分钟在k8s上可视化搭建Kylin5

CloudEon开源

大数据 开源 云原生 kubernetes 运维 Apache Kylin

MySQL Router高可用搭建

GreatSQL

MySQL 高可用 greatsql社区

如何减少创建订单、支付等线上写场景漏测?去哪儿流量录制回放实践

TakinTalks稳定性社区

供应链中台管理系统开发私有化部署

薇電13242772558

供应链 管理系统

公司大规模裁员的时间轴

HoneyMoose

二级等保堡垒机用哪个品牌好?理由是什么?

行云管家

网络安全 等保 堡垒机 等级保护

Deep Speech:百度硅谷人工智能实验室利用单学习算法实现英语和汉语识别_百度_张天雷_InfoQ精选文章