写点什么

谷歌通过定制的深度学习模型升级了其语音转文字的服务

  • 2018-05-22
  • 本文字数:1510 字

    阅读完需:约 5 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

一个月前,谷歌宣布在源于 Magenta 项目的文字转语音(Text-to-Speech,简称TTS)技术上取得代际突破,接着该公司又对其语音转文字(Speech-to-Text,简称STT)API 云服务进行了重大升级。更新后的服务利用语音转录的深度学习模型,根据特定用例量身定制:短语音命令、打电话或视频,在所有其他上下文中都有一个默认模型。如今,升级后的服务可以处理120 种语言以及不同模型可用性和功能级别的变体。商业应用范围包括电话会议、呼叫中心和视频转录。转录的准确性在有多个扬声器和明显背景噪音的情形下有了改进提高。

另外两个因素构成了本次升级。标准服务水平协议(the standard service level agreement,简称SLA)现在承诺有99.9% 的可用性。该服务含有一种新机制来标记转录工作并向谷歌团队提供反馈。

专用模型是根据音频媒体的特点来采样,从而产生带宽 %E5%92%8C%E4%BF%A1%E5%8F%B7%E6%8C%81%E7%BB%AD%E6%97%B6%E9%97%B4%E3%80%82%E7%94%B5%E8%AF%9D%E9%9F%B3%E9%A2%91%E7%9A%84%E9%87%87%E6%A0%B7%E9%A2%91%E7%8E%87%E6%98%AF8Khz%EF%BC%8C%E5%9B%A0%E6%AD%A4%E9%9F%B3%E9%A2%91%E8%B4%A8%E9%87%8F%E8%BE%83%E4%BD%8E%EF%BC%8C%E8%80%8C%E6%9D%A5%E8%87%AA%E8%A7%86%E9%A2%91%E7%9A%84%E9%9F%B3%E9%A2%91%EF%BC%8C%E9%87%87%E6%A0%B7%E9%A2%91%E7%8E%87%E9%80%9A%E5%B8%B8%E6%98%AF16Khz%E3%80%82%E5%9B%A0%E6%AD%A4%EF%BC%8C%E9%9C%80%E8%A6%81%E9%92%88%E5%AF%B9%E6%AF%8F%E7%A7%8D%E5%AA%92%E4%BD%93%E7%B1%BB%E5%9E%8B%E8%BF%9B%E8%A1%8C%E4%BC%98%E5%8C%96%E7%9A%84%E6%A8%A1%E5%9E%8B%E3%80%82">https://en.wikipedia.org/wiki/Bandwidth_(signal_processing) 和信号持续时间。电话音频的采样频率是 8Khz,因此音频质量较低,而来自视频的音频,采样频率通常是 16Khz。因此,需要针对每种媒体类型进行优化的模型。

众包真实世界音频样本是谷歌改进其模型战略的核心,随着所谓数据记录的可选程序的发布,用户可以选择跟谷歌共享他们的音频,以帮助改进模型。数据记录的启用让用户可以访问具有更好性能的增强模型。谷歌宣布, 与标准电话模型相比,词汇错误减少了54%,而对于增强视频模型,错误减少了64%。

最佳实践而言,谷歌建议使用无损耗编码器(如 FLAC )压缩后的音频数据,采样频率为 16Khz,避免任何音频预处理,比如降噪或自动增益控制。

词汇错误减少不是提升语音转文字整体质量的唯一因素。标点符号的预测仍然是语言转录面临的重要挑战。谷歌的语音转文字API 现在能够给转录后的文本添加标点符号,进一步提高了转自长音频序列的文本的可读性。这种自动添加标点符号的功能是利用了 LSTM 神经网络模型。

正如最近来自谷歌研究(Google Research)关于语音合成和语音识别的研究成果显示,用于语音转文字的深度学习经常是基于序列到序列(sequence-to-sequence,也可简写为Seq2seq)的神经网络模型,这些模型也可以应用于机器翻译和文本摘要。简而言之, Seq2seq 模型使用第一个 LSTM 对音频输入进行编码,第二个 LSTM 以输入序列为条件,对数据进行解码,并把数据转换成转录文本。

其他现有的语音转文字服务包括支持29 种语言微软语音识别 API、支持 7 种语言的 IBM Watson API ,以及 2017 年 11 月发布亚马逊Transcribe ,到目前为止,其只支持美式英语和西班牙语。来自佛罗里达技术学院(the Florida Institute of Technology)对其中这些服务的比较显示,谷歌服务API 的错误率较低。另一组比较测试强调了语音转录服务延迟的重要性。

阅读英文原文: Google Upgrades Its Speech-to-Text Service with Tailored Deep-Learning Models

2018-05-22 19:001467
用户头像

发布了 199 篇内容, 共 87.1 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

坚持五件事,带你走出迷茫困境!

博文视点Broadview

不止于观测|阿里云可观测套件正式发布

阿里巴巴云原生

阿里云 云原生 可观测 套件

【愚公系列】2022年06月 Java教学课程 01-Java语言背景介绍

愚公搬代码

6月月更

高效的远程办公经验 | 社区征文

远程办公 6月月更 初夏征文

K8S学习笔记--安装Docker环境

IT蜗壳-Tango

IT蜗壳 6月月更

APM 工具 SkyWalking 是什么

耳东@Erdong

监控 Skywalking 6月月更

Linux开发_摄像头编程(实现拍照、网页监控功能)

DS小龙哥

6月月更

电商如何借助小程序发力

Geek_99967b

小程序 电商

NodeJS 防止xss攻击

德育处主任

Node 6月月更

【云舟说直播间】-数字安全专场明天下午正式上线

云计算

Kafka ETL 之后,我们将如何定义新一代实时数据集成解决方案?

tapdata

kafka ETL 数据集成 实时数据 DaaS

如何使用 Django Forms 创建表单?

海拥(haiyong.site)

Python django 6月月更

JSON入门教程

倔强的牛角

json Fastjson 6月月更

大一学生课设c——服装管理系统

工程师日月

6月月更

消息队列的丢失、重复与积压问题

Damon

6月月更

成熟的知识管理,应具备哪些条件?

小炮

开发增效利器—2022年VsCode插件分享

中原银行

ide vscode 插件 中原银行 降本增效

redis 精讲系列介绍八 - 淘汰策略

Nick

Redis 核心技术与实战 6月月更 redis 底层原理 redis 淘汰策略 redis 精讲

quarkus+saas多租户动态数据源切换实现简单完美

weir威尔

SaaS 多租户 Quarkus 动态数据源

5 个关于 NFT 的技术漏洞

devpoint

区块链 以太坊 NFT 6月月更

直播带货app源码搭建中,直播CDN的原理是什么?

开源直播系统源码

软件开发 直播带货 直播系统 app源码

运行时应用自我保护(RASP):应用安全的自我修养

SEAL安全

RASP

《Java编程思想》作者Bruce Eckel新作,到底做了哪些升级?

图灵教育

Java

mysql存储引擎之Myisam和Innodb的区别

乌龟哥哥

6月月更

实战监听Eureka client的缓存更新

程序员欣宸

Java SpringCloud 6月月更

Angular 服务器端渲染应用一个常见的内存泄漏问题

汪子熙

typescript 前端开发 angular Spartacus 6月月更

攻防演练合集 | 3个阶段,4大要点,蓝队防守全流程纲要解读

青藤云安全

网络安全 网络攻防 安全服务 攻防演练

Rancher 2.6 全新 Monitoring 快速入门

Rancher

Kubernetes k8s rancher

使用Mycat进行MySQL单库分表

迷彩

架构 运维 mycat 分布式数据库中间件 6月月更

java程序员培训 | Java设计模式之桥接模式

@零度

设计模式 JAVA开发

DevEco Device Tool 助力OpenHarmony设备开发

OpenHarmony开发者

OpenHarmony

谷歌通过定制的深度学习模型升级了其语音转文字的服务_Google_Alexis Perrier_InfoQ精选文章