写点什么

OpenAI 宣布开源多语言语音识别系统 Whisper,英文识别能力接近人类水平

  • 2022-09-23
    北京
  • 本文字数:720 字

    阅读完需:约 2 分钟

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平

9 月 21 日,OpenAI宣布,已经训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。


Whisper 是一个自动语音识别 (ASR) 系统,它使用从网络上收集的 680,000 小时多语言和多任务监督数据进行训练。使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。


OpenAI 开源了模型和推理代码,以作为构建有用应用程序和进一步研究稳健语音处理的基础。


查看论文:https://cdn.openai.com/papers/whisper.pdf

开源代码:https://github.com/openai/whisper

查看模型卡:https://github.com/openai/whisper/blob/main/model-card.md



Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器被训练来预测相应的文本标题,并与特殊标记混合,这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。



其他现有的方法经常使用更小、更紧密配对的音频-文本训练数据集,或使用广泛但无监督的音频预训练。因为 Whisper 是在一个庞大而多样的数据集上训练的,没有针对任何特定数据进行微调,所以它无法击败专门研究 LibriSpeech 性能的模型,这是语音识别领域一个著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更健壮,并且错误率降低了 50%。


Whisper 的音频数据集中大约有三分之一是非英语的,它被轮流分配任务,将原始语言转录或翻译成英语。并且优于 CoVoST2 到英语翻译零样本的监督 SOTA。



Whisper 的高精度和易用性能够让开发者将语音界面添加到更广泛的应用程序中。

2022-09-23 17:208123
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 539.5 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

书单推荐|宅家不动过国庆,好书相伴不寂寞

图灵教育

书单 国庆节

InetAddress.getLocalHost() 执行很慢?

xiaoxi666

网络 网络库

【牛客刷题-算法】NC16 对称的二叉树

清风莫追

算法 二叉树 10月月更

什么是 Python 垃圾回收机制中的引用计数

宇宙之一粟

Python 垃圾回收机制 引用计数 10月月更

Vue是怎样监听数组的变化的?

bb_xiaxia1998

Vue

【C语言难点突破】指针入门讲解

Geek_65222d

10月月更

微服务通信

穿过生命散发芬芳

微服务 10月月更

80%的前端开发都答不上来的js异步面试题

loveX001

JavaScript

React-Hooks怎样封装防抖和节流-面试真题

beifeng1996

React

C++学习---_IO_new_fdopen函数原理分析学习

桑榆

c++ 源码分析 10月月更

面向对象究竟是什么鬼?该如何理解?

乌龟哥哥

10月月更

Vue3入门指北(八)v-model

Augus

Vue3 10月月更

经常会采坑的javascript原型应试题

loveX001

JavaScript

老生常谈React的diff算法原理-面试版

beifeng1996

React

Mac下vagrant从安装到体验

程序员欣宸

vagrant 虚拟机 10月月更

Fiddler(二) - 使用Fiddler做抓包分析

No Silver Bullet

fiddler 抓包分析 10月月更

硬核好文!网络拓扑类型:总线、环形、星形、网状、树形、点对点、混合

wljslmz

网络技术 网络拓扑 10月月更

【愚公系列】2022年10月 Go教学课程 018-分支结构之switch

愚公搬代码

10月月更

网络请求模块(2)

张立梵

Python. 爬虫必备知识讲解 10月月更

基于IDE和dlv远程调试Kubernetes组件

琦彦

Go Kubernetes 调试 10月月更 delve

2022-10-04:以下go语言代码输出什么?A:{123} main.T{x:123} B:{123} T{x:123} C:boo boo D:boo main.T{x:123}。 packag

福大大架构师每日一题

golang 福大大 选择题

令人头秃的js隐式转换面试题,你能做对吗

loveX001

JavaScript

Collections之Arraylist源码解读(五)

知识浅谈

ArrayList 10月月更

Fiddler(一) - Fiddler简介

No Silver Bullet

fiddler 10月月更 抓包工具

说说Vue响应式系统中的Watcher和Dep的关系-面试进阶

bb_xiaxia1998

Vue

最长回文串

掘金安东尼

10月月更 算法、

【牛客刷题-算法】NC22 合并两个有序的数组

清风莫追

算法 数组 10月月更

【牛客刷题-算法】NC25 删除有序链表中重复的元素-I

清风莫追

算法 链表 10月月更

书单推荐|宅家不动过国庆,好书相伴不寂寞

图灵社区

书单 国庆节

面试官:React怎么做性能优化

beifeng1996

React

【一Go到底】第五天---指针

指剑

Go golang 10月月更

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平_AI&大模型_刘燕_InfoQ精选文章