写点什么

Google 发力智能识别:Cloud Speech API 正式发布

  • 2017-05-11
  • 本文字数:1642 字

    阅读完需:约 5 分钟

Google 在近期的博客帖子中,宣布它们的Cloud Speech API 正式发布。Cloud Speech API 允许开发人员添加预先训练好的机器学习模型,用于视频、图像和文本分析中的识别任务,并可实现动态翻译。Cloud Speech API 曾于去年夏天以测试版发布。

Cloud Speech API 使用了基于神经网络的语音识别技术,该技术源自于 Google 自身的语音产品 Google Assistant 和 Google Home。Cloud Speech API 服务当前支持超过 80 种语言及其变种。它采用两种语音输入模式:

  • 实时数据流模式,在用户说话的同时,就以提示的方式给出说话的文本内容。
  • 批处理模式,实现将录制的语音转录为文本的功能。

通过对背景噪声的过滤,该服务在有噪音的环境中也能正常工作。此外,通过在词典中新添单词或短语,该服务也可以从单词和短语提示中进行学习。

Google 在正式发布中添加了一些新特性,并从如下方面改进了性能:

  • 提高了长语音转写为文本的准确性;
  • 更快的处理速度,在批处理场景中比前期版本要快三倍;
  • 扩展了支持的文件格式,现在支持 WAV、Opus 和 Speex。

在近期的 Google Cloud Next 2017 大会上,Google 的产品经理 Dan Aharon 做了一个演讲,其中介绍了Cloud Speech API 的一些用例,包括使用移动设备的人机交互,以及Web 和IoT 应用。该服务也已用于生成客户服务业务中的语音分析。

图片来源: https://www.youtube.com/watch?v=7w_w01EGC7U 的截图。

Aharon 还探讨了推动语音应用发展背后的原因,以及为什么说语音应用现在达到了一个拐点:

  • 语音更快速(可达每分钟 150 个单词,输入只能达到每分钟 20 到 40 个单词);
  • 易于应用(无需操作各层的用户界面);
  • 更便捷(操作无需占用双手);
  • 现在超过 20% 的 Android 应用搜索是使用语音完成的;
  • Google Home、Google Pixel 和 Amazon Echo 等“随时倾听”(Always Listening)设备正成为主流应用。

Google 还演示了一些用户场景,以此展现了 Cloud Speech API 的功能。给出的第一个例子是一个名为“Azar”的移动设备上的聊天应用。用户可以使用 Azar 与他人开展实时视频聊天。Azar 不仅提供视频流和音频流,用户还可以选取语言进行语音转录。迄今为止,Azar 已实现了超过 150 亿次的配对聊天,具备了大规模提供服务的能力。

图片来源: https://www.youtube.com/watch?v=7w_w01EGC7U 的截图。

Google 演示的另一个用例关注的是客户服务。现在很多企业在通过电话提供客户服务时,首先会给出一个提示,告知用户为实现满意的客户服务,之后进行的对话将会被录音。但是企业是如何处理这些录音数据的?InteractiveTel 的 CTO Gary Graves指出,通常只有在与客户发生争执时才会复审这些录音。但是在 Graves看来,这种做法会令汽车经销商等企业失去不少商机:

不仅可使我们的汽车经销商客户完成更多销售量,而且会转变工作心态,因为经销商中的每个员工都要负起责任。经销商需要部署对记录或监控的解决方案,并且让员工知道已部署了这样的方案。但是目前对信息的使用是响应式的,即只有在存在问题时才会借助于这些信息。如果使用了 Cloud Speech 服务,就可以从这些对话信息中挖掘出可用的情报,经销商可以授权销售人员提供更主动的服务,提升客户服务的层级。

InteractiveTel 的产品为汽车经销商提供了对通话进行转录和情感分析的解决方案,可以将实时进行的电话通话提交使用了 Google Speech API 的 InteractiveTel 平台。由此,可为汽车经销商的销售团队创建切实可行的问题洞察,并根据每次通话确定客户的情感。

图片来源: https://www.youtube.com/watch?v=7w_w01EGC7U 的截图。

在 Google Cloud Next 2017 大会上,Graves 代表 InteractiveTel演示了他们的技术是如何提供实时语音转录为文字、关键字检测及情感分析等功能。Graves 认为,即便客户不愿意提供合同信息,依然可以大量捕获客户对产品的需求,这些需求不再依赖于单个销售人员在销售体系中准确地捕获。

图片来源: https://www.youtube.com/watch?v=7w_w01EGC7U 的截图。

查看英文原文: Google Invests In Cognitive: Cloud Speech API Reaches General Availability

2017-05-11 19:002321
用户头像

发布了 227 篇内容, 共 73.8 次阅读, 收获喜欢 28 次。

关注

评论

发布
暂无评论
发现更多内容

20个Golang片段让我不再健忘 | 京东云技术团队

京东科技开发者

Java Go 语言 企业号 6 月 PK 榜

浅谈ByteHouse Projection优化实践

字节跳动数据平台

OLAP Clickhouse bytehouse

只见新人笑,不见旧人哭 ChatGPT淘汰了多少产品?快来了解!

加入高科技仿生人

人工智能 AI 低代码 ChatGPT

对线面试官-线程池(三)

派大星

Java 面试

BH1750 传感器实战教学 —— 硬件设计篇

矜辰所致

传感器 硬件设计实战 光照传感器 6 月 优质更文活动

直播app源码开发的稳定控制知识

山东布谷科技

软件 App 开发 搭建平台 直播app系统

“AI Earth”人工智能创新挑战赛:助力精准气象和海洋预测Baseline[2]:数据探索性分析(温度风场可视化)、CNN+LSTM模型建模

汀丶人工智能

人工智能 数据挖掘 机器学习 LSTM RNN回归 6 月 优质更文活动

软件测试/测试开发丨接口测试学习笔记分享

测试人

程序员 软件测试 协议 接口测试 http和https

从Docker和Kubernetes看Containerd

鲸品堂

Docker 容器 Containerd 企业号 6 月 PK 榜

原来kafka也有事务啊,再也不担心消息不一致了

JAVA旭阳

kafka

容器化部署四大优势简单说明-行云管家

行云管家

容器化 部署 IT运维 容器化部署

NineData x 华为云正式上线

NineData

数据库 华为云 企业动态 语言 & 开发 NineData

目前青岛只有一家正规等保测评机构吗?在哪里?

行云管家

青岛 等级保护 等保测评

INFINI Easysearch 完成龙芯架构兼容性认证

极限实验室

搜索引擎 国产化 龙芯 easysearch 极限科技

电动车厂家会生产制造共享电动车吗?

共享电单车厂家

共享电动车厂家 共享电单车生产 本铯电动车厂家 电动车生产厂家

原来kafka也有事务啊,再也不担心消息不一致了

做梦都在改BUG

Java kafka 事务

flutter系列之:做一个会飞的菜单

程序那些事

flutter 架构 程序那些事

太赞了!阿里技术团队《Java 面试官手册》突击版对外开放!

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

阿里Java调优笔记爆火,7大模块优化实战,请查收

做梦都在改BUG

Java 性能优化 性能调优

“AI Earth”人工智能创新挑战赛:助力精准气象和海洋预测Baseline[1]、NetCDF4使用教学、Xarray 使用教学,针对气象领域.nc文件读取处理

汀丶人工智能

人工智能 数据挖掘 机器学习 深度学习 6 月 优质更文活动

“AI Earth”人工智能创新挑战赛:助力精准气象和海洋预测Baseline[3]:TCNN+RNN模型、SA-ConvLSTM模型

汀丶人工智能

人工智能 数据挖掘 机器学习 LSTM 6 月 优质更文活动

凝聚全球顶尖力量,助力开源行业发展 | 2023开放原子全球开源峰会开幕式暨高峰论坛亮点抢先看!

开放原子开源基金会

开源

百度APP iOS端包体积50M优化实践(三) 资源优化

百度Geek说

ios 开发语言 Object-c 企业号 6 月 PK 榜 6 月 优质更文活动

【618备战巡礼】“三高”之第一高--如何打造高可用系统 | 京东云技术团队

京东科技开发者

高可用 集群 高可用架构 618 企业号 6 月 PK 榜

制作Jdk镜像

tiandizhiguai

Docker k8s 镜像

2023秋招,Java岗最全面试攻略,吃透25个技术栈Offer拿到手软

架构师之道

java面试

Github 上最值得学习的 Springboot核心笔记,硬核简直了

做梦都在改BUG

Java spring Spring Boot 框架

学习MyBatis的异常处理机制

做梦都在改BUG

Java mybatis

基于 prefetch 的 H5 离线包方案 | 京东云技术团队

京东科技开发者

ios H5 andiod prefetch_related 企业号 6 月 PK 榜

时序数据库 openGemini 线下meetup · 北航站来啦,欢迎大家报名!

华为云开源

数据库 前端

ChatGPT与软件架构(5) - 网络安全

俞凡

人工智能 架构 网络安全 ChatGPT

Google发力智能识别:Cloud Speech API正式发布_微软_Kent Weare_InfoQ精选文章