写点什么

Mozilla 开放现有最大人类语音数据集,包含 18 种语言 1400 小时语音数据

  • 2019-03-01
  • 本文字数:1366 字

    阅读完需:约 4 分钟

Mozilla开放现有最大人类语音数据集,包含18种语言1400小时语音数据

2 月 28 日,Mozilla 发布了最大的人类语音数据集,包括 18 种不同的语言,总计记录了超过 42000 个贡献者的近 1400 个小时的语音数据。在 Mozilla 官方博客上,还更新了一篇对数据集来源以及用途的说明,InfoQ 在不改变原意的基础上对这篇文章的部分内容进行了编译,具体如下:


今天,我们很高兴与大家分享我们的第一个多语言数据集,其中包含 18 种语言,包括英语、法语、德语和汉语普通话,也包括威尔士语和卡比尔语。总的来说,新的数据集包括了超过 42000 人的大约 1400 个小时的语音片段。


随着此版本的发布,这个仍然在不断增长的通用语音数据集现在已经是同类数据集中最大的,成千上万的人贡献了他们的声音。接下来,完整的数据集将在 Common Voice 站点上提供下载。


官方中文下载地址:https://voice.mozilla.org/zh-CN/datasets

数据质量

Common Voice 数据集不仅在其大小和许可模型上是独特的,而且在其多样性上也是独特的,它代表了一个由语音贡献者组成的全球社区。贡献者可以选择加入,提供诸如他们的年龄、性别和口音等元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。


GitHub 地址:https://github.com/JRMeyer/open-speech-corpora


这是一种不同于其他可公开获取的数据集的方法,这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等),要么是语料库与“已发现”的数据集一样的多样性数据集(例如,TED 演讲的 TEDLIUM 语料库中,男性声音的数据量是女性的 3 倍)。

8 个月,从 3 种语言到 22 种语言

自 2018 年 6 月启用多种语言支持以来,Common Voice 已变得更加全球化和包容化。这已经超出了我们的预期:在过去的 8 个月里,社区热情地团结在这个项目周围,用 22 种语言启动了数据收集工作,在 Common Voice 网站上,还有 70 种语言正在进行中,令人难以置信。


作为一个社区驱动的项目,世界各地关心用自己的语言建立语音数据集的人们负责每一个新项目的启动——有些是热情的志愿者,有些是作为语言学家或技术专家日常工作的一部分。每一项工作都需要翻译网站,以允许投稿和添加句子阅读。


我们最新添加的语言包括荷兰语、哈卡钦语、世界语、波斯语、巴斯克语和西班牙语。在某些情况下,在 Common Voice 上发布一种新语言是该语言在互联网上出现的开始。这些社区的努力证明了所有的语言——不仅仅是那些能为科技公司带来高收入的语言——都值得被代表。

改进贡献体验,包括可选配置文件

Common Voice 网站是我们构建语音数据集的主要工具之一,这些数据集对语音交互技术非常有用。它今天的样子是一个不断迭代的过程的结果。我们听取了社区对贡献的痛点的反馈,同时也进行了可用性研究,使贡献更容易、更吸引人、更有趣。


贡献者不仅可以看到每种语言在记录和验证方面的进展,而且还可以改进不同剪辑片段之间的提示;作为体验的一个组成部分,贡献者可以尝试审查、重新录制和跳过剪辑等新功能;此外,体验者还能够在说与听功能之间快速切换,以及选择退出会话的功能。


我们还添加了创建已保存的概要文件的选项,它允许贡献者跨多种语言跟踪他们的进度和指标。提供一些可选的人口统计信息还可以提高语音识别训练中使用的音频数据准确性。



原文链接:


https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/


2019-03-01 11:205479
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 277.0 次阅读, 收获喜欢 1301 次。

关注

评论

发布
暂无评论
发现更多内容

2020最新阿里巴巴必问的200个面试题以及答案,助你斩获阿里offer

Java 程序员 后端

15个顶级Java多线程面试题及答案

Java 程序员 后端

18张图揭秘高性能Linux服务器内存池技术是如何实现的

Java 程序员 后端

2020年五面蚂蚁、三面拼多多、字节跳动最终拿offer入职拼多多

Java 程序员 后端

Go语言,内存的分配原理

微客鸟窝

Go 语言 11月日更

从欧拉捐赠中,读懂数字基建与数字中国

脑极体

RocketMQ 5.0 POP 消费模式探秘

阿里巴巴云原生

阿里云 RocketMQ 云原生 消息队列 pOP

2020年最新蚂蚁金服 Java 高级岗2000+面试通关秘籍,就这水平

Java 程序员 后端

2020年Java面试题汇总手册(持续更新版)

Java 程序员 后端

linux之git高级命令

入门小站

Linux

2021-06-05# Java基础(dayFourteen):锁的两种方式

Java 程序员 后端

2021字节总监最新发布:JVM +GC优质手册!面试专属

Java 程序员 后端

布局电力行业,百度智能云与中国电科院签署战略合作协议

百度大脑

人工智能 百度

2-2 SPU和SKU详解及MyBatisPlus自动生成

Java 程序员 后端

2020年Java程序员请先把这几项硬技能熟悉掌握,再想着跳槽拿高薪

Java 程序员 后端

18级大数据专家,漫谈大数据平台安全风险与建设,值得学(下篇)

Java 程序员 后端

在线多空行只保留一个工具

入门小站

工具

区块链之符号理论:抽象化和身份管理的必要条件

CECBC

1万字长文高速你千万级并发架构下如何提高数据库存储性能

Java 程序员 后端

2020面试阿里字节跳动90%被问到的JVM面试题附答案

Java 程序员 后端

20 数据存储服务器集群的伸缩性设计

Java 程序员 后端

【MySQL技术专题】「索引技术系列」体验前所未有的技术探险,看穿索引的本质和技术体系(上篇)

洛神灬殇

MySQL 索引原理 11月日更

2020年7月份GitHub上最热门的Java开源项目排行

Java 程序员 后端

【SpringCloud技术专题】「Resilience4j入门指南」轻量级熔断框架的入门指南

洛神灬殇

熔断器 11月日更 Resilience4j

2021-07-25 Java基础

Java 程序员 后端

18道kafka高频面试题(附答案)

Java 程序员 后端

19年末从外包辞职,10000小时后,进字节跳动拿offer

Java 程序员 后端

2019金九银十前端面经总结

Java 程序员 后端

在WE大会看见出行未来:告别拥堵,15分钟飞到办公室

脑极体

2020年“有史以来”全网最全1309道BAT大厂java面试题(附答案分享)

Java 程序员 后端

2020年最新Java面试必备知识点整理,我是这样靠它拿下阿里Offer的

Java 程序员 后端

Mozilla开放现有最大人类语音数据集,包含18种语言1400小时语音数据_AI&大模型_Geek_anzqm4_InfoQ精选文章