写点什么

Google 发力智能识别:Cloud Speech API 正式发布

  • 2017-05-11
  • 本文字数:1642 字

    阅读完需:约 5 分钟

Google 在近期的博客帖子中,宣布它们的Cloud Speech API 正式发布。Cloud Speech API 允许开发人员添加预先训练好的机器学习模型,用于视频、图像和文本分析中的识别任务,并可实现动态翻译。Cloud Speech API 曾于去年夏天以测试版发布。

Cloud Speech API 使用了基于神经网络的语音识别技术,该技术源自于 Google 自身的语音产品 Google Assistant 和 Google Home。Cloud Speech API 服务当前支持超过 80 种语言及其变种。它采用两种语音输入模式:

  • 实时数据流模式,在用户说话的同时,就以提示的方式给出说话的文本内容。
  • 批处理模式,实现将录制的语音转录为文本的功能。

通过对背景噪声的过滤,该服务在有噪音的环境中也能正常工作。此外,通过在词典中新添单词或短语,该服务也可以从单词和短语提示中进行学习。

Google 在正式发布中添加了一些新特性,并从如下方面改进了性能:

  • 提高了长语音转写为文本的准确性;
  • 更快的处理速度,在批处理场景中比前期版本要快三倍;
  • 扩展了支持的文件格式,现在支持 WAV、Opus 和 Speex。

在近期的 Google Cloud Next 2017 大会上,Google 的产品经理 Dan Aharon 做了一个演讲,其中介绍了Cloud Speech API 的一些用例,包括使用移动设备的人机交互,以及Web 和IoT 应用。该服务也已用于生成客户服务业务中的语音分析。

图片来源: https://www.youtube.com/watch?v=7w_w01EGC7U 的截图。

Aharon 还探讨了推动语音应用发展背后的原因,以及为什么说语音应用现在达到了一个拐点:

  • 语音更快速(可达每分钟 150 个单词,输入只能达到每分钟 20 到 40 个单词);
  • 易于应用(无需操作各层的用户界面);
  • 更便捷(操作无需占用双手);
  • 现在超过 20% 的 Android 应用搜索是使用语音完成的;
  • Google Home、Google Pixel 和 Amazon Echo 等“随时倾听”(Always Listening)设备正成为主流应用。

Google 还演示了一些用户场景,以此展现了 Cloud Speech API 的功能。给出的第一个例子是一个名为“Azar”的移动设备上的聊天应用。用户可以使用 Azar 与他人开展实时视频聊天。Azar 不仅提供视频流和音频流,用户还可以选取语言进行语音转录。迄今为止,Azar 已实现了超过 150 亿次的配对聊天,具备了大规模提供服务的能力。

图片来源: https://www.youtube.com/watch?v=7w_w01EGC7U 的截图。

Google 演示的另一个用例关注的是客户服务。现在很多企业在通过电话提供客户服务时,首先会给出一个提示,告知用户为实现满意的客户服务,之后进行的对话将会被录音。但是企业是如何处理这些录音数据的?InteractiveTel 的 CTO Gary Graves指出,通常只有在与客户发生争执时才会复审这些录音。但是在 Graves看来,这种做法会令汽车经销商等企业失去不少商机:

不仅可使我们的汽车经销商客户完成更多销售量,而且会转变工作心态,因为经销商中的每个员工都要负起责任。经销商需要部署对记录或监控的解决方案,并且让员工知道已部署了这样的方案。但是目前对信息的使用是响应式的,即只有在存在问题时才会借助于这些信息。如果使用了 Cloud Speech 服务,就可以从这些对话信息中挖掘出可用的情报,经销商可以授权销售人员提供更主动的服务,提升客户服务的层级。

InteractiveTel 的产品为汽车经销商提供了对通话进行转录和情感分析的解决方案,可以将实时进行的电话通话提交使用了 Google Speech API 的 InteractiveTel 平台。由此,可为汽车经销商的销售团队创建切实可行的问题洞察,并根据每次通话确定客户的情感。

图片来源: https://www.youtube.com/watch?v=7w_w01EGC7U 的截图。

在 Google Cloud Next 2017 大会上,Graves 代表 InteractiveTel演示了他们的技术是如何提供实时语音转录为文字、关键字检测及情感分析等功能。Graves 认为,即便客户不愿意提供合同信息,依然可以大量捕获客户对产品的需求,这些需求不再依赖于单个销售人员在销售体系中准确地捕获。

图片来源: https://www.youtube.com/watch?v=7w_w01EGC7U 的截图。

查看英文原文: Google Invests In Cognitive: Cloud Speech API Reaches General Availability

2017-05-11 19:002458
用户头像

发布了 227 篇内容, 共 76.8 次阅读, 收获喜欢 28 次。

关注

评论

发布
暂无评论
发现更多内容

我与Android的故事|社区征文

Changing Lin

android 移动开发 新春征文

基于RestTemplate的在线武器库

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

[JAVA冷知识]什么是逆变(contravariant)与协变(covariant)?数组支持协变&逆变吗?泛型呢?

山河已无恙

Java 2月月更

Hango Rider:网易数帆开源 Envoy 企业级自定义扩展框架

网易数帆

开源 云原生 envoy Hango Rider

从小样本学习出发,奔向星辰大海

百度大脑

元宇宙里办年会,听演讲、看产品、抽大奖一件不落

Meta 小元

数字孪生 元宇宙

总结 XSS 与 CSRF 两种跨站攻击

喀拉峻

网络安全

语义级代码克隆检测数据集的评估与改进

华为云开发者联盟

软件工程 代码克隆检测 代码克隆 语义代码克隆 BigCloneBench

虚拟空间引领 数字化转型拉开银行差距

CECBC

PingCode Wiki 权限设计之ACL

PingCode研发中心

项目管理 开发 acl PingCode 页面权限

一文让你彻底搞懂Python中__str__和__repr__

宇宙之一粟

Python 2月月更

2022年1月云主机性能评测报告,移动云升至第三

博睿数据

声网AI降噪测评系统初探

声网

音视频 RTE 技术详解

巧用这几种文本检索工具,节省80%的时间!

优麒麟

Linux 操作系统 grep 检索 优麒麟

【安全漏洞】浅谈Bypass Waf (基础-实战)

H

网络安全 渗透测试 漏洞

2022-02微软漏洞通告

火绒安全

微软 网络安全 终端安全 漏洞修复

Linux修改drop_caches内核参数来清理缓存的一些笔记

山河已无恙

Linux 2月月更

阿里云服务器搭建halo博客从0到1

乌龟哥哥

阿里云 2月月更 halo博客

元宇宙的本质特征是五大融合

CECBC

亚信科技AISWare AntDB数据库在运营商核心业务系统的联合实践分享

亚信AntDB数据库

5G AntDB intel 亚信科技

springcloud五大核心组件

编程江湖

Web Components系列(四) —— 认识 Shadow DOM

编程三昧

前端 组件化 HTML5, CSS3 2月月更

设计模式【14】-- 从智能音箱中学习命令模式

秦怀杂货店

Java 设计模式

开源最佳实践

LinuxSuRen

开源 最佳实践

2022年的元宇宙,你该知晓些什么?

CECBC

欧拉的奇异之旅·风暴来临与欧拉初诞

白洞计划

征文投稿丨使用云服务器ECS快速搭建halo博客

阿里云弹性计算

征文投稿 玩转ECS halo博客

redis 面试总结

yuexin_tech

redis 面试

5种阿里常用代码检测推荐 | 阿里巴巴DevOps实践指南

阿里云云效

阿里云 云原生 软件开发 研发 DevOps实践指南

Java自定义DNS解析器负载均衡实现

FunTester

负载均衡 性能测试 接口测试 DNS FunTester

浅谈OKR(12/100)

hackstoic

OKR

Google发力智能识别:Cloud Speech API正式发布_微软_Kent Weare_InfoQ精选文章