Google发布语音指令数据集

深度学习在语音识别方面的使用方兴未艾，但是可用的训练数据集却不多见。虽然 Kaldi 这种软件可以使用神经网络进行训练，但是复杂的操作吓退了很多小白。Google 认识到，互联网上没有可供入门者快速入门深度学习的语言数据集，所以他们开源了语音指令数据集。

TensorFlow 和 AIY 团队开源的数据集包含 65000 个录音，每个录音时长几秒钟，包含 30 个左右的单词。它们是通过网站采集而来的，参与人数达到了数千人。团队贴心地附上了训练和预测的 TensorFlow 示例代码。数据集基于署名4.0 国际（CC By 4.0）许可发布，Google 表示将继续扩充这个数据集。Google 还指出，这个数据集特别适合新手入门。此外，他们也开源了收集录音的工具。

对于想尝鲜的人，Google 制作了一个基于TensorFlow 的 Android 程序。程序会询问获取麦克风权限，随后会给出 10 个单词，程序将高亮显示已经被你读过的单词。

这个例子的效果和数据集有很大的关系，有可能不尽如人意，毕竟商业语言识别系统比这个复杂的多。Google 希望随着更多的数据加入，模型的识别效果会日趋完善。

使用 TensorFlow 进行语言识别的教程可以在这里找到。使用最新版本的TensorFlow 和主流配置，模型训练只需要几个小时。对神经网络进行微调可以解决不同的问题，例如不同的响应时间、大小，以及在不同平台上的准确度取舍问题。

查看英文原文： Launching the Speech Commands Dataset

感谢薛命灯对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

创作场景

Google 发布语音指令数据集