写点什么

Mozilla “Common Voice” 开源语音识别项目

  • 2017-07-31
  • 本文字数:654 字

    阅读完需:约 2 分钟

语音识别技术可能会彻底改变我们与机器的交互方式,但通常技术开发代价昂贵,而且有专利上的使用限制。大多数语音识别技术都被封锁在少数的大公司内。Mozilla 认为这样会阻碍创新,因此它发起了“Common Voice”这一开源语音识别项目。

在“Common Voice”项目中,你可以捐献语音到一个大型数据库里,这些语音会被用于构建开源的语音识别引擎,任何人都可以访问这些数据从而轻松又快速地训练基于语音的应用程序。通过“Common Voice”,程序员们可以开发很多有趣的应用程序,如实时语音翻译、基于语音的管理助手等等。用户也可以帮助验证语音,根据显示的文本判断听到的语音是否正确,该判断结果也会被用于改进语音识别模型。

Mozilla 计划从 2017 年六月份开始收集总时长约 10,000 个小时的语音(这是训练一个语音文本转换系统所需要的数据量),之后会开源语音数据库。目前的源文本来自人们的捐献,以及一些公开的电影剧本,如电影“风云人物”(It’s a Wonderful Life)。考虑到实际生活中人们的语音变化多样,Mozilla 希望能收集到多样化的语音,让语音识别引擎能够准确无误地处理不同场景下的语音,比如带有背景对话声、汽车噪音、风扇噪音的场景。在将来,Mozilla 有可能会将该语音识别引擎集成到 Firefox 中。

该项目在 Github 上的链接: https://github.com/mozilla/voice-web

查看英文原文: Project Common Voice


感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-07-31 19:008892
用户头像

发布了 21 篇内容, 共 94349 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

什么是浅拷贝和深拷贝,如何用 js 代码实现?

不在线第一只蜗牛

JavaScript 拷贝

接口测试:Mock 的价值与意义

测吧(北京)科技有限公司

测试

软件测试学习笔记丨Python常用第三方库 yaml

测试人

Python 软件测试 yaml 测试开发

2024北京智源大会开幕,智源推出大模型全家桶及全栈开源技术基座新版图,大模型先锋集结共探AGI之路

智源研究院

数据库物理计划执行指南

KaiwuDB

数据库 KaiwuDB 物理计划执行

Shell 判断语句:决策的艺术

左诗右码

Shell 循环语句:重复任务的自动化利器

左诗右码

文件系统崩溃一致性、方法、原理与局限

EquatorCoco

分布式 文件系统

打造安全高效的数字货币交易平台:交易所开发全攻略

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

智源联合多所高校推出首个多任务长视频评测基准MLVU

智源研究院

Axios 和 Fetch: 深入比较HTTP请求工具

Liam

JavaScript 前端 HTTP axios Fetch

太空策略单机游戏推荐:群星Stellaris 游戏支持win和mac下载

你的猪会飞吗

Mac游戏下载 群星游戏下载

唯品会API:解锁商品详情的力量

Noah

智领云端,逐梦低空:中国电信成立低空经济产业联盟

脑极体

AI

“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?

Openlab_cosmoplat

人工智能 金融

火山引擎助力自动驾驶:云原生合规专区回灌集群解决方案

Geek_2d6073

Mozilla “Common Voice” 开源语音识别项目_Mozilla_CarolGuo_InfoQ精选文章