2月28日，Mozilla发布了最大的人类语音数据集，包括18种不同的语言，总计记录了超过42000个贡献者的近1400个小时的语音数据。在Mozilla官方博客上，还更新了一篇对数据集来源以及用途的说明，InfoQ在不改变原意的基础上对这篇文章的部分内容进行了编译，具体如下：

今天，我们很高兴与大家分享我们的第一个多语言数据集，其中包含18种语言，包括英语、法语、德语和汉语普通话，也包括威尔士语和卡比尔语。总的来说，新的数据集包括了超过42000人的大约1400个小时的语音片段。

随着此版本的发布，这个仍然在不断增长的通用语音数据集现在已经是同类数据集中最大的，成千上万的人贡献了他们的声音。接下来，完整的数据集将在Common Voice站点上提供下载。

数据质量

Common Voice数据集不仅在其大小和许可模型上是独特的，而且在其多样性上也是独特的，它代表了一个由语音贡献者组成的全球社区。贡献者可以选择加入，提供诸如他们的年龄、性别和口音等元数据，这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。

这是一种不同于其他可公开获取的数据集的方法，这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等)，要么是语料库与“已发现”的数据集一样的多样性数据集(例如，TED演讲的TEDLIUM语料库中，男性声音的数据量是女性的3倍)。

8个月，从3种语言到22种语言

自2018年6月启用多种语言支持以来，Common Voice已变得更加全球化和包容化。这已经超出了我们的预期：在过去的8个月里，社区热情地团结在这个项目周围，用22种语言启动了数据收集工作，在Common Voice网站上，还有70种语言正在进行中，令人难以置信。

作为一个社区驱动的项目，世界各地关心用自己的语言建立语音数据集的人们负责每一个新项目的启动——有些是热情的志愿者，有些是作为语言学家或技术专家日常工作的一部分。每一项工作都需要翻译网站，以允许投稿和添加句子阅读。

我们最新添加的语言包括荷兰语、哈卡钦语、世界语、波斯语、巴斯克语和西班牙语。在某些情况下，在Common Voice上发布一种新语言是该语言在互联网上出现的开始。这些社区的努力证明了所有的语言——不仅仅是那些能为科技公司带来高收入的语言——都值得被代表。

Common Voice网站是我们构建语音数据集的主要工具之一，这些数据集对语音交互技术非常有用。它今天的样子是一个不断迭代的过程的结果。我们听取了社区对贡献的痛点的反馈，同时也进行了可用性研究，使贡献更容易、更吸引人、更有趣。

贡献者不仅可以看到每种语言在记录和验证方面的进展，而且还可以改进不同剪辑片段之间的提示；作为体验的一个组成部分，贡献者可以尝试审查、重新录制和跳过剪辑等新功能；此外，体验者还能够在说与听功能之间快速切换，以及选择退出会话的功能。

我们还添加了创建已保存的概要文件的选项，它允许贡献者跨多种语言跟踪他们的进度和指标。提供一些可选的人口统计信息还可以提高语音识别训练中使用的音频数据准确性。

原文链接：