GTLC全球技术领导力峰会·上海站,首批讲师正式上线! 了解详情
写点什么

微软发布了类似于 Cortana 的语音转文字技术

2015 年 12 月 25 日

12 月 14 日, 微软发布了一项新的自定义识别智能服务(Custom Recognition Intelligence Service , CRIS)的私人预览,它是一个高度可定制的工具,可以为应用程序提供类似于 Siri 的语音转文本功能。同样在 12 月 14 日,微软也开放了两套应用程序接口(API)的公共预览,它给开发者提供了能够理解录音和视频中说话人的技术。

所有这些技术都属于微软牛津计划的一部分,它是微软在过去几年间构建起的帮助第三方开发人员访问人工智能的一项倡议。谷歌正沿着这条道路取得了很多成果,比如 Cloud Vision API 的发布。

微软牛津计划提供了一组基于 Rest 架构的 API 和 SDK 工具包,帮助开发者轻轻松松使用微软的自然数据理解能力为自己的解决方案增加智能服务。利用微软牛津计划构建你自己的解决方案,支持任意语言及任意开发平台。主要提供了 4 个自然语言处理方面的核心问题解决方案:人脸识别、语音识别、计算机视觉和语言理解智能服务。

微软在上个月发布了一个情感检测工具,它也是牛津计划的一部分,同时也宣布说话人识别的公开 beta 版也会在今年年底到来。根据微软技术和研究高级项目经理 Ryan Galgo 在最近的博客中的介绍,现在这个工具终于到来了。这个语音 API 可以验证和识别话语人,而视频 API 可以跟踪脸部,检测静态背景和稳定视频内容中的运动物体。

但 CRIS 工具会更有趣些。下面是微软上个月提供的高层次的描述:

即使是在类似于嘈杂的公共空间这样具有挑战性的环境中,这个工具也可以帮助开发者定制语音识别服务。例如,在一个响亮的车间或繁忙的购物中心,公司可以用这个工具来帮助团队更好地利用语音识别功能。它也可以被用来帮助一个应用程序更好地理解那些遇到语音识别麻烦的人,如非母语说话人或有残疾的那些人。

当开发者注册使用这项服务的时候,微软会询问他们是否有熟悉的语音转文本技术,如 HTK、Kaldi 和 SRILM,或是来自谷歌、苹果、或者微软自身的个人数字辅助技术。

的确,正如 Galgon 提到的,“过去的几年目睹了说话人识别系统性能的巨大进步”。现在,开发人员能够利用微软在这一领域中所带来的技术进步开展更多的工作。

微软的牛津计划现在正蒸蒸日上,公司刚刚让说话人识别和视频 API 能够在一个公共预览中可获取。微软的牛津计划是公司专门为了应对人工智能未来发展的一个项目。从更广泛的意义上讲,伴随着视觉、听觉、或声音输入的进步,牛津计划代表了微软所认为的未来个人计算的演变状态。

至于说话人识别 API 的作用,开发人员可以期待通过说话人的说话方式,为用户提供更强的身份认证。 API 本身并不能代替现有的通用的身份验证方式,但可以将它作为现有方式的一种补充提高。微软期待围绕语音识别中的独特特征研发新的语音识别技术。

说话人识别的目标是帮助开发人员构建能够平衡便利与欺诈的智能身份验证机制。要实现这种平衡是非常不容易的。理想的情况下,为了建立标识,需要三块信息。

  • 用户知道的东西(密码或 PIN)。
  • 用户拥有的东西(一个安全的键盘、移动设备或信用卡)。
  • 用户是什么(生物测定,例如语音、指纹、脸)。

微软的说话人识别 API 还使用了两个目前最先进的算法,来帮助从音频流中进行声音识别。新的组件被称为说话人验证和说话人识别。

说话人验证可通过验证用户的声音或语音自动检验和验证用户的身份。这是与身份验证的场景密切相关的,并经常与密码短语相关联。因此,我们选择了文本相关的方式,这意味着说话人需要在注册和验证阶段选择使用特定的密码短语。

说话人识别能够在给定一组预期的说话人的情况下,自动识别一个音频文件中的说话人。输入音频配对提供的一组说话人,在这种情况下,如果找到匹配,则返回说话人的身份。它与文本无关,意味着在注册和验证阶段对说话人的语音内容并没有限制。

尽管微软可以说是错过了移动计算的热潮,但是该公司已经表示,它们希望为智能手机和平板电脑之后的科技变革做好准备。许多高科技产业现在正在讨论支持语音和预测数字助手的未来。

随着越来越多的企业开始关注移动革命,有些人看到了包括人工智能在内的个人计算的下一代浪潮。微软发布的说话人和视频 API 的公开预览版是公司所做的一个赌注,他们正在试图将开发者引入他们的未来构图中。


感谢董志南对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015 年 12 月 25 日 18:0010305
用户头像

发布了 268 篇内容, 共 101.4 次阅读, 收获喜欢 17 次。

关注

评论

发布
暂无评论
发现更多内容

CSS ( Cascading Style Sheets )

roadup

CSS

我与你地铁高峰期的邂逅,背后竟然是?

脑极体

Spring Boot 使用slf4j进行日志记录

武哥聊编程

Java springboot SpringBoot 2 slf4j 28天写作

不可多得的干货!耗时两个礼拜,8000字安卓面试长文,内含福利

欢喜学安卓

android 程序员 面试 移动开发

Synchronized 精讲

伯阳

Java 多线程 高并发 synchronized java关键字

网线如何制作和如何使用?

synchronized只会用不知道原理?一文搞定

Java鱼仔

Java 面试 并发 synchronized

关于选择的复盘(part 1)

.

28天写作

甲方日常 83

句子

工作 随笔杂谈 日常

SpringBoot太强了、ShardingSphere上榜

云流

spring 编程 框架

扫盲帖:聊聊微服务与分布式系统

AI乔治

Java 架构 微服务 分布式系统

记录一下我离线依赖迁移安装的具体尝试过程

blueju

JavaScript 前端 npm Node webpack

精选算法面试-队列

李孟

算法 队列 28天写作

原理竟然是这!GitHub上标星13k的《Android面试突击版》,醍醐灌顶!

欢喜学安卓

android 程序员 面试 移动开发

Spring5.0源码学习系列之Spring AOP简述

AI乔治

Java spring 架构

漫谈分层架构:为什么要进行架构分层?

AI乔治

Java 架构 高可用系统的架构 高可用架构

房子是程序员的印钞机和救生舱

陆陆通通

赚钱 程序人生 买房 逆袭 28天写作

【Mysql-InnoDB 系列】锁

程序员架构进阶

MySQL innodb 28天写作

异步I/O -- posix aio 从入门到放弃的吐血实践

1412

workflow srpc 异步调度 posix aio kqueue

[2/28]保障业务转化为开发需求

俊毅

【薪火计划】11 - 学习总结

brave heart

管理 28天写作

数仓建设中最常用模型--Kimball维度建模详解

五分钟学大数据

大数据 数据仓库 数仓 维度建模

自动驾驶到底应该怎么实现?(28天写作 Day4/28)

mtfelix

自动驾驶 28天写作 智能电动车

计算机网络基础

roadup

TCP 网络 HTTP 计算机 HTTP3.0

前端性能优化

roadup

前端工程 性能调优

读《关于中台的思考与尝试》,我竟然懂得了这么多!

李忠良

中台 方法论

三分钟快速详细安装CentOS

程序员的时光

Linux centos 程序员 28天写作

外行话之什么是好的游戏角色

Justin

28天写作 外行话 游戏设计

28 天带你玩转 Kubernetes-- 第四天(资源介绍)

Java全栈封神

Kubernetes k8s 28天写作 k8s教程 k8s资源

影响DevOps和DevSecOps采用的7种趋势

啸天

安全 DevSecOps 应用安全

突然明白 npm install xxx 的业务实际用处

blueju

前端 npm

DNSPod与开源应用专场

DNSPod与开源应用专场

微软发布了类似于Cortana的语音转文字技术-InfoQ