写点什么

Mozilla 开放现有最大人类语音数据集,包含 18 种语言 1400 小时语音数据

  • 2019-03-01
  • 本文字数:1366 字

    阅读完需:约 4 分钟

Mozilla开放现有最大人类语音数据集,包含18种语言1400小时语音数据

2 月 28 日,Mozilla 发布了最大的人类语音数据集,包括 18 种不同的语言,总计记录了超过 42000 个贡献者的近 1400 个小时的语音数据。在 Mozilla 官方博客上,还更新了一篇对数据集来源以及用途的说明,InfoQ 在不改变原意的基础上对这篇文章的部分内容进行了编译,具体如下:


今天,我们很高兴与大家分享我们的第一个多语言数据集,其中包含 18 种语言,包括英语、法语、德语和汉语普通话,也包括威尔士语和卡比尔语。总的来说,新的数据集包括了超过 42000 人的大约 1400 个小时的语音片段。


随着此版本的发布,这个仍然在不断增长的通用语音数据集现在已经是同类数据集中最大的,成千上万的人贡献了他们的声音。接下来,完整的数据集将在 Common Voice 站点上提供下载。


官方中文下载地址:https://voice.mozilla.org/zh-CN/datasets

数据质量

Common Voice 数据集不仅在其大小和许可模型上是独特的,而且在其多样性上也是独特的,它代表了一个由语音贡献者组成的全球社区。贡献者可以选择加入,提供诸如他们的年龄、性别和口音等元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。


GitHub 地址:https://github.com/JRMeyer/open-speech-corpora


这是一种不同于其他可公开获取的数据集的方法,这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等),要么是语料库与“已发现”的数据集一样的多样性数据集(例如,TED 演讲的 TEDLIUM 语料库中,男性声音的数据量是女性的 3 倍)。

8 个月,从 3 种语言到 22 种语言

自 2018 年 6 月启用多种语言支持以来,Common Voice 已变得更加全球化和包容化。这已经超出了我们的预期:在过去的 8 个月里,社区热情地团结在这个项目周围,用 22 种语言启动了数据收集工作,在 Common Voice 网站上,还有 70 种语言正在进行中,令人难以置信。


作为一个社区驱动的项目,世界各地关心用自己的语言建立语音数据集的人们负责每一个新项目的启动——有些是热情的志愿者,有些是作为语言学家或技术专家日常工作的一部分。每一项工作都需要翻译网站,以允许投稿和添加句子阅读。


我们最新添加的语言包括荷兰语、哈卡钦语、世界语、波斯语、巴斯克语和西班牙语。在某些情况下,在 Common Voice 上发布一种新语言是该语言在互联网上出现的开始。这些社区的努力证明了所有的语言——不仅仅是那些能为科技公司带来高收入的语言——都值得被代表。

改进贡献体验,包括可选配置文件

Common Voice 网站是我们构建语音数据集的主要工具之一,这些数据集对语音交互技术非常有用。它今天的样子是一个不断迭代的过程的结果。我们听取了社区对贡献的痛点的反馈,同时也进行了可用性研究,使贡献更容易、更吸引人、更有趣。


贡献者不仅可以看到每种语言在记录和验证方面的进展,而且还可以改进不同剪辑片段之间的提示;作为体验的一个组成部分,贡献者可以尝试审查、重新录制和跳过剪辑等新功能;此外,体验者还能够在说与听功能之间快速切换,以及选择退出会话的功能。


我们还添加了创建已保存的概要文件的选项,它允许贡献者跨多种语言跟踪他们的进度和指标。提供一些可选的人口统计信息还可以提高语音识别训练中使用的音频数据准确性。



原文链接:


https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/


2019-03-01 11:205507
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 279.8 次阅读, 收获喜欢 1301 次。

关注

评论

发布
暂无评论
发现更多内容

【等保知识】十个等保常见问题解答汇总

行云管家

网络安全 信息安全 等级保护 过等保 数据审计

设计 | ClickHouse 分布式表实现数据同步

RadonDB

数据库 Clickhouse

2021年字节跳动、阿里等大厂最全Java面试题,1个月学会Java开发

Java 面试 后端

2021年抓住金三银四涨薪好时机,腾讯Java社招面试流程

Java 面试 后端

2021年Java面试心得,整理出这份8万字Java性能优化实战解析

Java 面试 后端

2021年Java高级面试题总结,2021最新大厂高频微服务面试总结

Java 面试 后端

一个简单的产品分析模型

石云升

产品经理 产品思维 9月日更 产品分析

谁是中国最受赞赏的创投机构?

创业邦

2021年互联网大厂Java笔经,Java程序员如何有效提升学习效率

Java 面试 后端

Android音频架构| 社区征文

轻口味

android 音视频 新春征文

如何画UML,几种简单的模型分析

编程 架构 面试 后端

2021年华为Java面试真题解析,大厂面试必问

Java 面试 后端

2021年哔哩哔哩Java高级面试题及答案,Java实战视频下载

Java 面试 后端

2021年大厂Java高级面试题分享,程序员Java基础入门

Java 面试 后端

2021年Java者未来的出路在哪里,让人抓狂的Nginx性能调优

Java 面试 后端

2021年哔哩哔哩Java高级面试题及答案,大牛手把手教你

Java 面试 后端

2021年京东Java岗面试必问,我在华为做Java外包的真实经历

Java 面试 后端

好看视频Android重构——围绕于播放器的重构实践

百度Geek说

性能优化 大前端 好看视频 播放器

2021年互联网大厂Java笔经,Java重点知识大全

Java 面试 后端

2021年Java者未来的出路在哪里,Java开发校招面试题

Java 面试 后端

2021年Java面经分享,别再说你不会JVM性能监控和调优了

Java 面试 后端

IT运维和自动化运维以及运维开发有啥不同?能解释下吗?

行云管家

互联网 运维 IT运维 自动化运维 云运维

2021年互联网大厂Java笔经,Java自学宝典电子书下载

Java 面试 后端

阿里巴巴首发:Java核心框架指导手册,1小时点击量破千万!

Java 程序员 架构 面试 计算机

2021年你与字节跳动只差这份笔记,大神码了2000页Spring全家桶笔记

Java 面试 后端

2021年抓住金三银四涨薪好时机,借花献佛

Java 面试 后端

代码检查规则背景及总体介绍

百度开发者中心

最佳实践 代码规则

2021年Java面经分享,程序员必备技能:时间复杂度与空间复杂度的计算

Java 面试 后端

2021年一起努力应对互联网寒冬吧,Java程序员面试笔试宝典答案

Java 面试 后端

2021年一起努力应对互联网寒冬吧,字节跳动Java高级工程师

Java 面试 后端

2021年冲刺年薪40w,Java从基础到高级知识点汇总

Java 面试 后端

Mozilla开放现有最大人类语音数据集,包含18种语言1400小时语音数据_AI&大模型_Geek_anzqm4_InfoQ精选文章