HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

OpenAI 宣布开源多语言语音识别系统 Whisper,英文识别能力接近人类水平

  • 2022-09-23
    北京
  • 本文字数:720 字

    阅读完需:约 2 分钟

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平

9 月 21 日,OpenAI宣布,已经训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。


Whisper 是一个自动语音识别 (ASR) 系统,它使用从网络上收集的 680,000 小时多语言和多任务监督数据进行训练。使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。


OpenAI 开源了模型和推理代码,以作为构建有用应用程序和进一步研究稳健语音处理的基础。


查看论文:https://cdn.openai.com/papers/whisper.pdf

开源代码:https://github.com/openai/whisper

查看模型卡:https://github.com/openai/whisper/blob/main/model-card.md



Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器被训练来预测相应的文本标题,并与特殊标记混合,这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。



其他现有的方法经常使用更小、更紧密配对的音频-文本训练数据集,或使用广泛但无监督的音频预训练。因为 Whisper 是在一个庞大而多样的数据集上训练的,没有针对任何特定数据进行微调,所以它无法击败专门研究 LibriSpeech 性能的模型,这是语音识别领域一个著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更健壮,并且错误率降低了 50%。


Whisper 的音频数据集中大约有三分之一是非英语的,它被轮流分配任务,将原始语言转录或翻译成英语。并且优于 CoVoST2 到英语翻译零样本的监督 SOTA。



Whisper 的高精度和易用性能够让开发者将语音界面添加到更广泛的应用程序中。

2022-09-23 17:208033
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 532.7 次阅读, 收获喜欢 1976 次。

关注

评论

发布
暂无评论
发现更多内容

微服务实战文档分享,阿里内部的Spring cloud微服务精髓都在里面

Java架构追梦

Java 微服务 阿里

不愧是字节跳动技术官,算法精髓全写这本666页笔记里了

Java架构追梦

Java 程序员 数据结构与算法、

2年工作经验的Java程序员面试经历

爱好编程进阶

程序员 后端开发

CGBTN2111-DAY02总结复习

爱好编程进阶

Java 程序员 后端开发

Stack 顿悟三部曲(2):穿越虚拟内存的迷雾

蓬蒿

线程 cpu 堆栈 进程

显卡只是为游戏而生吗?GPU服务器了解一下

Finovy Cloud

GPU服务器 GPU算力

耗时三年终于整理出了SSM+微服务+Nginx+Redis+MySQL的PDF了!

Java架构追梦

Java 后端开发

2021年4月23号,成功斩获阿里(Java岗

爱好编程进阶

Java 程序员 后端开发

centos7的启动流程(systemctl)

爱好编程进阶

Java 程序员 后端开发

《数字经济全景白皮书》Z世代用户洞察篇 完整版 发布

易观分析

Z世代

区块链 重塑不良资产互信机制

CECBC

(JavaSE)数据类型变量与运算符

爱好编程进阶

Java 程序员 后端开发

13-注解增删改查

爱好编程进阶

Java 程序员 后端开发

4年JAVA外包终上岸,我只能说避雷这些公司

爱好编程进阶

Java 程序员 后端开发

BATJ关于Redis的高频面试真题

爱好编程进阶

Java 程序员 后端开发

7Z命令行

爱好编程进阶

Java 程序员 后端开发

快来跟20年京东T9架构师学习进阶微服务+Docker+Dubbo+SpringBoot

Java架构追梦

spring java面试 后端开发

CTO 说了,用错 @Autowired 和

爱好编程进阶

Java 程序员 后端开发

维权思考

成周

元宇宙核心技术--脑机接口

CECBC

2021全网最全Activiti7教程02(Activiti7入门使用-欢迎收藏)

爱好编程进阶

Java 程序员 后端开发

CRUD勿进,全身心投入才能读懂腾讯P8亲码的“Java微服务

爱好编程进阶

Java 程序员 后端开发

让 Rust 的 CI 加速 2~3倍速度

非凸科技

rust 构建 cl cithub 缓存空间

Stack 顿悟三部曲(1):从CPU的视角说起

蓬蒿

cpu 堆栈 计算机原理 stack

终于有人把tomcat讲清楚了!阿里大牛推荐的tomcat架构解析文档

Java架构追梦

Java 后端开发 JVM’

BAT华为等一线大厂Java工程师必读书单

爱好编程进阶

Java 程序员 后端开发

CoProcessFunction实战三部曲之三:定时器和侧输出

爱好编程进阶

Java 程序员 后端开发

架构师成长路线

架构师汤师爷

软件架构 架构师 成长路线

Apache ShardingSphere 企业行|走进汽车之家

SphereEx

数据库 企业 ShardingSphere SphereEx apache 社区

15 个优秀开源的 Spring Boot 学习项目,一网打尽!

爱好编程进阶

Java 程序员 后端开发

2021-11-9【数据结构平时实验】

爱好编程进阶

Java 程序员 后端开发

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平_AI&大模型_刘燕_InfoQ精选文章