Deep Speech：百度硅谷人工智能实验室利用单学习算法实现英语和汉语识别

百度研究院是百度公司的一个部门（NASDAQ：BIDU），近日公布了其硅谷人工智能实验室（SVAIL）的一项新的研究成果，被称为 Deep Speech2。Deep Speech 通过使用一个单一的学习算法具备准确识别英语和汉语的能力。其成果已经发表在相关论文中： Deep Speech 2: End-to-End Speech Recognition in English and Mandarin 。

去年的时候，百度的首席科学家 Andrew Ng 博士以及由 Awni Hannun 领导的 10 人研究团队在美国康奈尔大学图书馆网站上称，他们已经开发出了一种新的，更为准确的语音识别系统 Deep Speech，该系统使用了端对端的深度学习技术。Andrew Ng 表示，百度 Deep Speech 主要专注于提高嘈杂环境（例如，餐馆、汽车和公共交通）下的英语语音识别的准确率。它在噪音环境中（比如汽车内和人群之中）的表现更为突出。在噪音环境下，测试显示百度 Deep Speech 系统的出错率要比谷歌 Speech API，Wit.AI，微软 Bing Speech 以及苹果 Dictation 低 10% 多。

在过去的一年中，SVAIL 的研究人员提高了英语语音识别的表现，现在已经开始训练汉语。在许多情况下，汉语版本的语音识别已经实现了相当高的精确度，该系统现已可以大范围应用于真实世界中，比如移动设备上的网络搜索。

语音识别是一项越来越重要的技术，已经被用于苹果语音助手 Siri、语音输入功能 Dictation 以及谷歌语音搜索中。过去二十年中，语音识别技术取得了显著的进步，已经开始从实验室走向市场。语音识别技术，也称为自动语音识别，其目标是将人类的语音中的词汇内容转化为计算机可读的输入。以前的主流的语音识别技术多采用模式识别依赖于大规模数据的获取和高性能计算技术的发展，深度学习（Deep Learning）已经取得了举世瞩目的成绩。目前，端到端的深度学习现在已经成为语音识别最重要的手段。而百度正是采用了这种技术。

“SVAIL 已经表明，这种终到端（end-to-end）的深度学习方法可以用来识别各种不同的语言”，Andrew Ng 博士表示，“我们的做法的关键是我们使用了高性能计算技术，这导致现在的计算速度是去年同期的 7 倍，在这个时候。正因为如此高效的速度，过去需要数周的实验现在几天之内就可以完成。这让我们可以实现更快的迭代”。

在这篇研究论文中，SVAIL 也提到 Deep Speech 可以处理来自全世界各地的不同的英语口音。目前，这样的处理对于移动设备上现有的流行的语音系统是非常具有挑战性的。

“通过使用批处理技术将 DNNs 部署在 GPUs 上，Deep Speech 的语音识别实现了非常高的效率，我对此印象深刻”，NVIDIA 的首席科学家 Bill Dally 博士在谈到 Deep Speech 的高性能计算架构的时候表示，“Deep Speech 在 16 个 GPU 上训练卷积神经网络（RNNs）取得不可思议的突破”。

面对各种不同的英语口音（如印度英语口音，以及那些英语不是第一语言的欧洲国家的英语口音），Deep Speech 都取得了飞速的进步。

当 Deep Speech 去年刚刚启动的时候，我就预见到了它的潜力”，卡耐基梅隆大学助理教授 Ian Lane 表示，“今天，在一个相对短的时间内，Deep Speech 已经取得了显著的进步。使用一个单一的端到端系统，它不仅仅能够处理英语，还可以处理汉语，而且目前还在进一步研究在产品中使用。对于百度使用的批处理调度过程，以及将大的深度神经网络部署在云计算服务器中的 GPU 上的方式，我非常感兴趣”。

相信随着 Deep Speech 的大范围部署，广泛应用于移动装置的语音识别系统将遭受此系统的巨大冲击。

感谢董志南对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们，并与我们的编辑和其他读者朋友交流（欢迎加入 InfoQ 读者交流群（已满），InfoQ 读者交流群（#2））。

创作场景

Deep Speech：百度硅谷人工智能实验室利用单学习算法实现英语和汉语识别