HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

谷歌通过定制的深度学习模型升级了其语音转文字的服务

  • 2018-05-22
  • 本文字数:1510 字

    阅读完需:约 5 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

一个月前,谷歌宣布在源于 Magenta 项目的文字转语音(Text-to-Speech,简称TTS)技术上取得代际突破,接着该公司又对其语音转文字(Speech-to-Text,简称STT)API 云服务进行了重大升级。更新后的服务利用语音转录的深度学习模型,根据特定用例量身定制:短语音命令、打电话或视频,在所有其他上下文中都有一个默认模型。如今,升级后的服务可以处理120 种语言以及不同模型可用性和功能级别的变体。商业应用范围包括电话会议、呼叫中心和视频转录。转录的准确性在有多个扬声器和明显背景噪音的情形下有了改进提高。

另外两个因素构成了本次升级。标准服务水平协议(the standard service level agreement,简称SLA)现在承诺有99.9% 的可用性。该服务含有一种新机制来标记转录工作并向谷歌团队提供反馈。

专用模型是根据音频媒体的特点来采样,从而产生带宽 %E5%92%8C%E4%BF%A1%E5%8F%B7%E6%8C%81%E7%BB%AD%E6%97%B6%E9%97%B4%E3%80%82%E7%94%B5%E8%AF%9D%E9%9F%B3%E9%A2%91%E7%9A%84%E9%87%87%E6%A0%B7%E9%A2%91%E7%8E%87%E6%98%AF8Khz%EF%BC%8C%E5%9B%A0%E6%AD%A4%E9%9F%B3%E9%A2%91%E8%B4%A8%E9%87%8F%E8%BE%83%E4%BD%8E%EF%BC%8C%E8%80%8C%E6%9D%A5%E8%87%AA%E8%A7%86%E9%A2%91%E7%9A%84%E9%9F%B3%E9%A2%91%EF%BC%8C%E9%87%87%E6%A0%B7%E9%A2%91%E7%8E%87%E9%80%9A%E5%B8%B8%E6%98%AF16Khz%E3%80%82%E5%9B%A0%E6%AD%A4%EF%BC%8C%E9%9C%80%E8%A6%81%E9%92%88%E5%AF%B9%E6%AF%8F%E7%A7%8D%E5%AA%92%E4%BD%93%E7%B1%BB%E5%9E%8B%E8%BF%9B%E8%A1%8C%E4%BC%98%E5%8C%96%E7%9A%84%E6%A8%A1%E5%9E%8B%E3%80%82">https://en.wikipedia.org/wiki/Bandwidth_(signal_processing) 和信号持续时间。电话音频的采样频率是 8Khz,因此音频质量较低,而来自视频的音频,采样频率通常是 16Khz。因此,需要针对每种媒体类型进行优化的模型。

众包真实世界音频样本是谷歌改进其模型战略的核心,随着所谓数据记录的可选程序的发布,用户可以选择跟谷歌共享他们的音频,以帮助改进模型。数据记录的启用让用户可以访问具有更好性能的增强模型。谷歌宣布, 与标准电话模型相比,词汇错误减少了54%,而对于增强视频模型,错误减少了64%。

最佳实践而言,谷歌建议使用无损耗编码器(如 FLAC )压缩后的音频数据,采样频率为 16Khz,避免任何音频预处理,比如降噪或自动增益控制。

词汇错误减少不是提升语音转文字整体质量的唯一因素。标点符号的预测仍然是语言转录面临的重要挑战。谷歌的语音转文字API 现在能够给转录后的文本添加标点符号,进一步提高了转自长音频序列的文本的可读性。这种自动添加标点符号的功能是利用了 LSTM 神经网络模型。

正如最近来自谷歌研究(Google Research)关于语音合成和语音识别的研究成果显示,用于语音转文字的深度学习经常是基于序列到序列(sequence-to-sequence,也可简写为Seq2seq)的神经网络模型,这些模型也可以应用于机器翻译和文本摘要。简而言之, Seq2seq 模型使用第一个 LSTM 对音频输入进行编码,第二个 LSTM 以输入序列为条件,对数据进行解码,并把数据转换成转录文本。

其他现有的语音转文字服务包括支持29 种语言微软语音识别 API、支持 7 种语言的 IBM Watson API ,以及 2017 年 11 月发布亚马逊Transcribe ,到目前为止,其只支持美式英语和西班牙语。来自佛罗里达技术学院(the Florida Institute of Technology)对其中这些服务的比较显示,谷歌服务API 的错误率较低。另一组比较测试强调了语音转录服务延迟的重要性。

阅读英文原文: Google Upgrades Its Speech-to-Text Service with Tailored Deep-Learning Models

2018-05-22 19:001340
用户头像

发布了 199 篇内容, 共 85.2 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

从“卷智商”到“卷情商”我们能从一场华为海外发布会学到什么?

脑极体

PC

软件测试/人工智能丨计算机视觉常见业务场景,原理和测试指标

测试人

人工智能 软件测试

都是植物补光,为什么你的没效果?

电子信息发烧客

【写作训练营打卡|08】写作的四大问题踩坑点总结

写作

企业网络新阶段:SD-WAN在云时代的关键作用

Ogcloud

云计算 网络 SD-WAN 云时代 WAN

Python 函数式编程让代码直接优雅起来

秃头小帅oi

SD-WAN的降本增效作用是如何体现的

Geek一起出海

拍卖直播电商平台的终局之战:开发拍品增值服务功能

软件开发-梦幻运营部

Milvus 老友汇|AI、云原生与向量数据库的精彩碰撞回顾!

Zilliz

云原生 Milvus AIGC KubeBlocks

文心一言 VS 讯飞星火 VS chatgpt (156)-- 算法导论12.3 3题

福大大架构师每日一题

福大大架构师每日一题

纯干货|聊一聊大促活动背后的技术:火山引擎边缘云CDN/DCDN/GA

火山引擎边缘云

CDN CDN加速 加速 内容分发 CDN带宽

企业用户混合云组网的新方式——SD-WAN

Ogcloud

网络 SD-WAN 混合云 混合云架构 组网

某公司案例分析

尚思卓越

运维 堡垒机

【活动回顾】Databend 云数仓与 Databend Playground 扩展组件介绍

Databend

一位CSDN的博主怀疑我抄袭他

Loken

音视频开发

基于 Webpack5 Module Federation 的业务解耦实践

快乐非自愿限量之名

Web 技术栈 核心技术栈

用户指南|使用 Helm Chart 部署单机版 GreptimeDB

Greptime 格睿科技

Kubernetes 时序数据库 #数据库 Helm Charts

雅高与亚马逊云科技合作为宾客提供卓越体验

财见

多云网络互通问题怎么解决——SD-WAN

Ogcloud

云计算 网络 多云服务 多云架构 SD-WAN

深入学习 C++编程,数据结构与算法关系

高端章鱼哥

c++ 数据结构 算法结构

低代码与自动化:加速软件开发的新趋势

不在线第一只蜗牛

运维 自动化 低代码

马上2024年了,现在去开发一款App需要投入多少资金?

编程的平行世界

开发 Android Studio 成本管理

C 语言注释和变量详解

小万哥

c c++ 程序员 后端 软件开发

学习Motoko:开启加密编程世界的全新篇章

TinTinLand

区块链 编程

SAP数据一键拉取!利用零代码ETL工具快速实现数据同步

RestCloud

数据同步 ETL SAP

统一观测丨使用 Prometheus 监控 Memcached 最佳实践

阿里巴巴云原生

阿里云 云原生

在 Excel 里研发俄罗斯方块;全国首例「AI 声音侵权案」审理丨 RTE 开发者日报 Vol.106

声网

打造绿色计算数智动力 HashData 入选“绿色计算最具价值解决方案”

酷克数据HashData

软件测试/人工智能丨卷积神经网络,与普通的神经网络有何不同

测试人

人工智能 软件测试

浅析JAVA日志中的几则性能实践与原理解释

阿里技术

Java 原理 性能实践

利用机器学习实现客户细分:提升市场营销效果的技术策略

快乐非自愿限量之名

机器学习 框架 客户细分

谷歌通过定制的深度学习模型升级了其语音转文字的服务_Google_Alexis Perrier_InfoQ精选文章