写点什么

OpenAI 宣布开源多语言语音识别系统 Whisper,英文识别能力接近人类水平

  • 2022-09-23
    北京
  • 本文字数:720 字

    阅读完需:约 2 分钟

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平

9 月 21 日,OpenAI宣布,已经训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。


Whisper 是一个自动语音识别 (ASR) 系统,它使用从网络上收集的 680,000 小时多语言和多任务监督数据进行训练。使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。


OpenAI 开源了模型和推理代码,以作为构建有用应用程序和进一步研究稳健语音处理的基础。


查看论文:https://cdn.openai.com/papers/whisper.pdf

开源代码:https://github.com/openai/whisper

查看模型卡:https://github.com/openai/whisper/blob/main/model-card.md



Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器被训练来预测相应的文本标题,并与特殊标记混合,这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。



其他现有的方法经常使用更小、更紧密配对的音频-文本训练数据集,或使用广泛但无监督的音频预训练。因为 Whisper 是在一个庞大而多样的数据集上训练的,没有针对任何特定数据进行微调,所以它无法击败专门研究 LibriSpeech 性能的模型,这是语音识别领域一个著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更健壮,并且错误率降低了 50%。


Whisper 的音频数据集中大约有三分之一是非英语的,它被轮流分配任务,将原始语言转录或翻译成英语。并且优于 CoVoST2 到英语翻译零样本的监督 SOTA。



Whisper 的高精度和易用性能够让开发者将语音界面添加到更广泛的应用程序中。

2022-09-23 17:207933
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 527.0 次阅读, 收获喜欢 1974 次。

关注

评论

发布
暂无评论
发现更多内容

FastAPI 快速开发 Web API 项目: 连接 MySQL 数据库

宇宙之一粟

Python FastApi 三周年连更

小红书社区反作弊探索与实践

小红书技术REDtech

防作弊 小红书

【七千字】教你如何用MySQL分析查询语句Explain

会踢球的程序源

Java MySQL

软件测试/测试开发丨流程封装与基于加密接口的测试用例设计

测试人

软件测试 自动化测试 接口测试 测试开发 测试用例

字节跳动正式开源分布式训练调度框架 Primus

字节跳动开源

开源 算法 流批一体

阿里内部 SpringCloud Alibaba(全彩版)开源,P8 大牛纯手打造

架构师之道

Java 微服务

OSPFv3与OSPFv2的对比

穿过生命散发芬芳

三周年连更 OSPFv3

2023JAVA架构师面试130题含答案:JVM+spring+分布式+并发编程》...

程序知音

Java java面试 后端开发 java架构 Java面试题

小红书广告智能创意能力构建过程详解

小红书技术REDtech

人工智能 广告 小红书

如何一招搞定PCB阻焊过孔问题?

华秋PCB

工具 电路 阻抗 PCB PCB设计

开源正当时,共赢新未来 OpenHarmony开发者大会成功召开

科技汇

LED显示屏如何做到节能环保?

Dylan

经济 设备 LED显示屏

OneFlow源码解析:Eager模式下Tensor的存储管理

OneFlow

CANN开发实践:4个DVPP内存问题的典型案例解读

华为云开发者联盟

人工智能 华为云 CANN 华为云开发者联盟 企业号 4 月 PK 榜

我在 20 年的软件工程师生涯中学到的 20 件事

宇宙之一粟

翻译 软技能

开屏广告=让用户等?小红书如何兼顾用户体验和广告投放效果

小红书技术REDtech

推荐 广告 小红书

准备2023金三银四的Java程序员注意:40+文档5000+页面试资料来啦

会踢球的程序源

Java java面试 面试资料 Java大厂面试

小红书2024届实习生招聘一直在等着你!

小红书技术REDtech

招聘 实习 小红书

SpringBoot2.x系列教程——整合使用JPA

会踢球的程序源

Java

互联网工程师Java面试八股文及答案整理(2023最新版)

会踢球的程序源

Java springboot java面试

python统计程序耗时 | python小知识

AIWeker

Python python小知识 三周年连更

3月寒窗!啃透美团保姆级分布式进阶技术手册,4月终入美团定L8

Java你猿哥

Java 分布式 SSM框架 分布式数据 分布式消息

测试工程师为什么要关注研发效能?

思码逸研发效能

软件工程 研发效能 测试工程师

TIME_WAIT累积与端口耗尽

阿泽🧸

TIME_WAIT 三周年连更

阿里全新推出:微服务突击手册,把所有操作都写出来了

Java你猿哥

微服务 微服务架构 Spring Cloud SSM框架

【安全运维】小微企业的安全运维工具用哪款好?

行云管家

运维 安全运维

《中国企业软件研发管理白皮书》发布会倒计时1天|精彩抢先看

万事ONES

关于ChatGPT,我们请小红书技术人和NLP专家聊聊原理和潜力

小红书技术REDtech

自然语言处理 openai ChatGPT

深入Spring Boot :web.xml去哪了

会踢球的程序源

Java Spring Boot

支持多种数据库管理系统:Valentina Studio Pro Mac激活版

真大的脸盆

软件 Mac 数据库管理 管理数据库

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

Openlab_cosmoplat

OpenAI宣布开源多语言语音识别系统Whisper,英文识别能力接近人类水平_AI&大模型_刘燕_InfoQ精选文章