QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

Mozilla 开放现有最大人类语音数据集,包含 18 种语言 1400 小时语音数据

  • 2019-03-01
  • 本文字数:1366 字

    阅读完需:约 4 分钟

Mozilla开放现有最大人类语音数据集,包含18种语言1400小时语音数据

2 月 28 日,Mozilla 发布了最大的人类语音数据集,包括 18 种不同的语言,总计记录了超过 42000 个贡献者的近 1400 个小时的语音数据。在 Mozilla 官方博客上,还更新了一篇对数据集来源以及用途的说明,InfoQ 在不改变原意的基础上对这篇文章的部分内容进行了编译,具体如下:


今天,我们很高兴与大家分享我们的第一个多语言数据集,其中包含 18 种语言,包括英语、法语、德语和汉语普通话,也包括威尔士语和卡比尔语。总的来说,新的数据集包括了超过 42000 人的大约 1400 个小时的语音片段。


随着此版本的发布,这个仍然在不断增长的通用语音数据集现在已经是同类数据集中最大的,成千上万的人贡献了他们的声音。接下来,完整的数据集将在 Common Voice 站点上提供下载。


官方中文下载地址:https://voice.mozilla.org/zh-CN/datasets

数据质量

Common Voice 数据集不仅在其大小和许可模型上是独特的,而且在其多样性上也是独特的,它代表了一个由语音贡献者组成的全球社区。贡献者可以选择加入,提供诸如他们的年龄、性别和口音等元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。


GitHub 地址:https://github.com/JRMeyer/open-speech-corpora


这是一种不同于其他可公开获取的数据集的方法,这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等),要么是语料库与“已发现”的数据集一样的多样性数据集(例如,TED 演讲的 TEDLIUM 语料库中,男性声音的数据量是女性的 3 倍)。

8 个月,从 3 种语言到 22 种语言

自 2018 年 6 月启用多种语言支持以来,Common Voice 已变得更加全球化和包容化。这已经超出了我们的预期:在过去的 8 个月里,社区热情地团结在这个项目周围,用 22 种语言启动了数据收集工作,在 Common Voice 网站上,还有 70 种语言正在进行中,令人难以置信。


作为一个社区驱动的项目,世界各地关心用自己的语言建立语音数据集的人们负责每一个新项目的启动——有些是热情的志愿者,有些是作为语言学家或技术专家日常工作的一部分。每一项工作都需要翻译网站,以允许投稿和添加句子阅读。


我们最新添加的语言包括荷兰语、哈卡钦语、世界语、波斯语、巴斯克语和西班牙语。在某些情况下,在 Common Voice 上发布一种新语言是该语言在互联网上出现的开始。这些社区的努力证明了所有的语言——不仅仅是那些能为科技公司带来高收入的语言——都值得被代表。

改进贡献体验,包括可选配置文件

Common Voice 网站是我们构建语音数据集的主要工具之一,这些数据集对语音交互技术非常有用。它今天的样子是一个不断迭代的过程的结果。我们听取了社区对贡献的痛点的反馈,同时也进行了可用性研究,使贡献更容易、更吸引人、更有趣。


贡献者不仅可以看到每种语言在记录和验证方面的进展,而且还可以改进不同剪辑片段之间的提示;作为体验的一个组成部分,贡献者可以尝试审查、重新录制和跳过剪辑等新功能;此外,体验者还能够在说与听功能之间快速切换,以及选择退出会话的功能。


我们还添加了创建已保存的概要文件的选项,它允许贡献者跨多种语言跟踪他们的进度和指标。提供一些可选的人口统计信息还可以提高语音识别训练中使用的音频数据准确性。



原文链接:


https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/


2019-03-01 11:205529
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 282.0 次阅读, 收获喜欢 1302 次。

关注

评论

发布
暂无评论
发现更多内容

DAPP质押挖矿项目技术开发功能丨DeFI质押挖矿系统开发详细方案

I8O28578624

FTP VS镭速传输,小文件传输技术内有乾坤

镭速

React Hooks源码深度解析

京东科技开发者

函数 React Hooks 企业号 3 月 PK 榜

GreptimeDB v0.1 发布|原生支持 Python, PromQL 和对象存储

Greptime 格睿科技

云原生 时序数据库 PromQL

mac office 365 商业专业版附升级工具

Rose

Office 365

如何规避近年频发的数据安全事故?

Zilliz

云原生 云服务 数据安全

如何基于 Skywalking 来快速搭建一套应用性能监控平台

观纵科技

APM 全链路监控 Skywalking

还不知道如何在java中终止一个线程?快来,一文给你揭秘

程序那些事

线程 多线程 「Java 25周年」 程序那些事 java

「金三银四」这些面试题,看看你会答几道?

王中阳Go

Go 后端 面试题 简历优化 就业辅导

开源工具系列5:DependencyCheck

HummerCloud

天池 DeepRec CTR 模型性能优化大赛 - 夺冠技术分享

阿里云大数据AI技术

人工智能 深度学习

如何从5万设备中找出频繁掉线设备,长期不在线的设备?——设备管理运维类

阿里云AIoT

软件测试/测试开发 | Spring Boot 集成 Swagger

测试人

软件测试 springboot 测试发开

ArchKeeper(开篇):架构守护平台的问题与理念

京东科技开发者

架构 敏捷 系统架构 腐化治理 企业号 3 月 PK 榜

详解数仓中sequence的应用场景及优化

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

JavaScript 对象管家 Proxy

devpoint

JavaScript Proxy ECMAScript 6

企业全球化出海技术体系建设实录【专题合集】

阿里技术

技术专题合集 全球化技术能力

高效学 C++|组合类的构造函数

TiAmo

组合 C++

Jasper狂飙:AIGC现象级应用的增长秘笈

OneFlow

人工智能 深度学习 ChatGPT

IoT物联网时代,如何优化你的网络- DNS域名解析服务——设备接入类

阿里云AIoT

缓存 网络协议 物联网 域名解析 调度

共建区块链生态,旺链科技获颁2022年度FISCO BCOS产业应用合作伙伴

旺链科技

区块链 区块链+

Matlab实现图像分割

timerring

图像分割

Axure9和Axure10哪款好?有什么区别呢?

Rose

原型设计 Axure RP

2023年深圳.NET线下技术沙龙要开始了!名额有限,报名从速

MASA技术团队

.net MASA

龙蜥白皮书精选:面向 DPU 场景的软硬协同协议栈

OpenAnolis小助手

开源 云原生 内核 SMC协议栈 TCP应用

API Gateway vs Load Balancer:选择适合你的网络流量管理组件

API7.ai 技术团队

IoT物联网平台-规则引擎SQL数据格式详解——设备管理运维类

阿里云AIoT

sql 物联网 数据格式

15 英寸 MacBook Air 和黄色 iPhone 14 在路上吗?

Rose

apple

Cloud Kernel SIG月度动态:发布 ANCK 新版本及 Plugsched v1.2.0

OpenAnolis小助手

内核 龙蜥社区 sig anck CVE修复

贴合运维业务场景的告警聚合实现——以Zabbix为例

观纵科技

zabbix 运维监控 IT运维

还在curd吗?封装属于自己的Spring-Boot-Starter

做梦都在改BUG

Java spring Spring Boot Starter

Mozilla开放现有最大人类语音数据集,包含18种语言1400小时语音数据_AI&大模型_Geek_anzqm4_InfoQ精选文章