写点什么

创新性应用深度学习,IBM 在语音识别领域取得了里程碑式突破

  • 2017-04-10
  • 本文字数:896 字

    阅读完需:约 3 分钟

最近,IBM 的一个研究团队宣布他们在语音识别上创造了一个新的业界纪录,在使用 SWITCHBOARD 语料库的情况下词错误率为 5.5%,接近于人类的错误率 5.1%。人们一般会在所听到的 20 个单词中遗失其中的一到两个。在一次五分钟左右的对话中,大约会遗失 80 个词。

研究计划中包括深度学习技术的应用和声学模型的集成。其中语音识别模型使用了长短期记忆(LSTM,Long Short Term Memory)和 WaveNet 语言模型。在声学模型上,他们使用了三个模型的分数融合(Score Fusion)。第一个模型是有多特征输入的 LSTM,第二个模型是经过说话者对抗多任务学习(Speaker-adversarial Multi-task Learning)训练后的 LSTM。第三个模型是具有 25 个卷积层与时间扩张(Time-dilated)卷积的残差网络(ResNet)。最后一个模型不仅从正向的例子中学习,而且也使用了负向的例子,因此当类似的语音模式重现时,会具有更好的表现。

来自蒙特利尔大学蒙特利尔学习算法实验室(Montreal Institute for Learning Algorithms )的 Yoshua Bengio 对语音识别技术是如此评论的:

在过去的几年中,尽管在语音识别或物体识别等人工智能领域取得了巨大的进展,技术上也已经接近于人类的水平,但在科学上依然存在着挑战。诚然,标准的基准测试并非总能揭示真实数据的多样性和复杂度。例如,不同的数据集对于不同的任务会呈现出不一样的敏感性,而且结果十分依赖于如何对被测试人员进行评估,比如使用专业的誊写员进行语音识别测试。

他也指出,IBM 的这项研究将声学模型与语言模型应用于神经网络与深度学习,有助于推进语音识别技术的发展。

另据一些语音识别相关的新闻报道,IBM 已将 Diarization 添加到他们的“ Watson 语音转文本”服务中。这一技术有助于一些用例的实现,例如识别交谈中的各方发言者。所有这些成就所带来的技术有助于解决人类耳朵、声音和大脑交互复杂性的问题。

查看英文原文: Using Deep Learning Technologies IBM Reaches a New Milestone in Speech Recognition


感谢薛命灯对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-04-10 19:002260
用户头像

发布了 227 篇内容, 共 68.4 次阅读, 收获喜欢 26 次。

关注

评论

发布
暂无评论
发现更多内容

ASL公链软件开发|ASL公链系统APP开发

字节跳动异构场景下的高可用建设实践

Java

Linux内核移植

学神来啦

云计算 Linux 运维 运维自动化

tms大时代APP开发|tms大时代软件系统开发

maven私服搭建与插件开发

IT视界

maven nexus

Go学习笔记之Hello World

架构精进之路

语言 Go 语言 7月日更

Pano Flutter SDK 设计经验与实践浅谈

拍乐云Pano

watt挖矿软件开发|watt挖矿APP系统开发

DMD钻石币质押软件系统开发内容

环球旅游积分GTC系统开发内容

JAVA九种排序算法详解(上)

加百利

Java 数组 排序 7月日更

店讯APP开发|店讯系统软件开发

乐视界APP开发|乐视界软件系统开发

Android性能优化之启动优化实战篇!分享面经

欢喜学安卓

android 程序员 面试 移动开发

百度搜索稳定性问题分析的故事(上)

百度Geek说

Flink 1.13,面向流批一体的运行时与 DataStream API 优化

Apache Flink

flink

Python 没有函数重载?如何用装饰器实现函数重载?

华为云开发者联盟

Python 装饰器 命名空间 函数 函数重载

2021金三银四Android大厂面试题来袭!附赠复习资料

欢喜学安卓

android 程序员 面试 移动开发

Android性能优化总结,超详细

欢喜学安卓

android 程序员 面试 移动开发

字节跳动这份面试题,你能打几分

Java 面试

2021谈一下当下最合适的Android架构,附小技巧

欢喜学安卓

android 程序员 面试 移动开发

已拿阿里P7+意向书!总结480页,超24W字2021最新一线大厂Java高级架构师面试题

Java架构追梦

Java 阿里巴巴 架构 面试

腾讯云,拿什么获得电商行业信赖?

ToB行业头条

#腾讯云

Flink 1.13,State Backend 优化及生产实践分享

Apache Flink

flink

党建百年•融云献礼,重磅发布党建全场景通信解决方案

融云 RongCloud

简单使用HTML集成OnlyOffice

一个需求

onlyoffice

从零开始学习3D可视化之事件的常用方法

ThingJS数字孪生引擎

大前端 可视化 3D可视化 数字孪生 事件

测试开发之网络篇-网络路由

禅道项目管理

网络

Hi.com嗨币软件系统开发资料

创新性应用深度学习,IBM在语音识别领域取得了里程碑式突破_IBM_Srini Penchikala_InfoQ精选文章