报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

OpenAI 宣布开源多语言语音识别系统 Whisper,英文识别能力接近人类水平

  • 2022-09-23
    北京
  • 本文字数:720 字

    阅读完需:约 2 分钟

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平

9 月 21 日,OpenAI宣布,已经训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。


Whisper 是一个自动语音识别 (ASR) 系统,它使用从网络上收集的 680,000 小时多语言和多任务监督数据进行训练。使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。


OpenAI 开源了模型和推理代码,以作为构建有用应用程序和进一步研究稳健语音处理的基础。


查看论文:https://cdn.openai.com/papers/whisper.pdf

开源代码:https://github.com/openai/whisper

查看模型卡:https://github.com/openai/whisper/blob/main/model-card.md



Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器被训练来预测相应的文本标题,并与特殊标记混合,这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。



其他现有的方法经常使用更小、更紧密配对的音频-文本训练数据集,或使用广泛但无监督的音频预训练。因为 Whisper 是在一个庞大而多样的数据集上训练的,没有针对任何特定数据进行微调,所以它无法击败专门研究 LibriSpeech 性能的模型,这是语音识别领域一个著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更健壮,并且错误率降低了 50%。


Whisper 的音频数据集中大约有三分之一是非英语的,它被轮流分配任务,将原始语言转录或翻译成英语。并且优于 CoVoST2 到英语翻译零样本的监督 SOTA。



Whisper 的高精度和易用性能够让开发者将语音界面添加到更广泛的应用程序中。

2022-09-23 17:208274
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 555.6 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

喜报!MIAOYUN入选成都高新区“瞪羚企业”

MIAOYUN

云计算 MIAOYUN 瞪羚企业 成都高新梯度培育企业 企业资质

Wireshark中的TCP协议包分析

小齐写代码

14 | 排序优化:如何实现一个通用的、高性能的排序函数.md

鲁米

【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法BeautifulPrompt

阿里云大数据AI技术

盛大发布!用友携手35家数智化领先企业推出《用户之友》专著

用友BIP

企业数智化

ERP和MES的区别与联系,这篇接地气的文章终于讲明白了!

优秀

MES系统 mes ERP系统 mes和erp区别

英特尔李映:开源开放是软件生态开拓进取的原动力

E科讯

低多边形游戏风格3D模型纹理贴图

3D建模设计

3D渲染 材质贴图 纹理贴图 材质纹理

我的2023年度关键词:迎接不一样的挑战,充实自我

芯动大师

#技术人的2023总结

Amazon WorkSpaces 现在提供使用 WorkSpaces 流协议(WSP)的 Web Access

亚马逊云科技 (Amazon Web Services)

Amazon WorkSpaces

基于Unity3D 低多边形地形模型纹理贴图

3D建模设计

3D渲染 材质贴图 纹理贴图 材质纹理

低多边形3D建模石头材质纹理贴图

3D建模设计

3D渲染 材质贴图 纹理贴图 材质纹理

SQL ALTER TABLE 语句- 灵活修改表结构和数据类型

小万哥

MySQL 数据库 sql 程序员 后端开发

Native Drawing开发指导,实现HarmonyOS基本图形和字体的绘制

HarmonyOS开发者

HarmonyOS

Amazon WorkSpaces 推出 Amazon WorkSpaces Web

亚马逊云科技 (Amazon Web Services)

容器 Amazon WorkSpaces

wing一款轻量快捷的团队开发工具

iofomo

Python 跨平台 开发工具

【Android】深入Binder拦截

iofomo

android 拦截器 binder

一文让你知道企业真正需要一个怎样的远程协同运维平台?

行云管家

运维 远程运维 远程协同

mac上好用的软件提取工具:Pacifist中文激活版

胖墩儿不胖y

Mac软件 软件提取工具 软件提前

“敏捷教练进阶课程”2024年1月27-28日 · A-CSM认证在线周末班【分时段模块化教学】CST导师亲授

ShineScrum

敏捷教练

服务器异常问题排查指南

AiDaddy

trouble shooting 线上问题排查 服务器异常排查 linux 命令

面试问题总结(一)

xfgg

Java

从ByteHouse网关,看如何进一步提升OLAP引擎性能

字节跳动数据平台

数据库 大数据 云原生 数仓 企业号12月PK榜

政采云基于 Dubbo 的混合云数据跨网实践

阿里巴巴云原生

阿里云 云原生 dubbo

[译]你需要知道的CSS属性isolation

南城FE

CSS 前端 布局

「智造」第12期:浅谈时序数据库的应用及发展

用友BIP

时序数据库

低多边形3D建模动画风格纹理贴图

3D建模设计

3D渲染 材质贴图 纹理贴图 材质纹理

另一种学习 Linux kernel 的方式 —— UML

袁世超

UML Linux Kenel

使用 Kubernetes Agent Server 实现 GitOps

极狐GitLab

Kubernetes DevOps gitlab gitops workflow

低多边形建筑3D模型纹理贴图

3D建模设计

3D渲染 材质贴图 纹理贴图 材质纹理 多边形建模

音视频FAQ(三):音画不同步

ZEGO即构

CDN 直播 实时音视频 视频编解码 实时互动

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平_AI&大模型_刘燕_InfoQ精选文章