12 月 14 日, 微软发布了一项新的自定义识别智能服务(Custom Recognition Intelligence Service , CRIS)的私人预览,它是一个高度可定制的工具,可以为应用程序提供类似于 Siri 的语音转文本功能。同样在 12 月 14 日,微软也开放了两套应用程序接口(API)的公共预览,它给开发者提供了能够理解录音和视频中说话人的技术。
所有这些技术都属于微软牛津计划的一部分,它是微软在过去几年间构建起的帮助第三方开发人员访问人工智能的一项倡议。谷歌正沿着这条道路取得了很多成果,比如 Cloud Vision API 的发布。
微软牛津计划提供了一组基于 Rest 架构的 API 和 SDK 工具包,帮助开发者轻轻松松使用微软的自然数据理解能力为自己的解决方案增加智能服务。利用微软牛津计划构建你自己的解决方案,支持任意语言及任意开发平台。主要提供了 4 个自然语言处理方面的核心问题解决方案:人脸识别、语音识别、计算机视觉和语言理解智能服务。
微软在上个月发布了一个情感检测工具,它也是牛津计划的一部分,同时也宣布说话人识别的公开 beta 版也会在今年年底到来。根据微软技术和研究高级项目经理 Ryan Galgo 在最近的博客中的介绍,现在这个工具终于到来了。这个语音 API 可以验证和识别话语人,而视频 API 可以跟踪脸部,检测静态背景和稳定视频内容中的运动物体。
但 CRIS 工具会更有趣些。下面是微软上个月提供的高层次的描述:
即使是在类似于嘈杂的公共空间这样具有挑战性的环境中,这个工具也可以帮助开发者定制语音识别服务。例如,在一个响亮的车间或繁忙的购物中心,公司可以用这个工具来帮助团队更好地利用语音识别功能。它也可以被用来帮助一个应用程序更好地理解那些遇到语音识别麻烦的人,如非母语说话人或有残疾的那些人。
当开发者注册使用这项服务的时候,微软会询问他们是否有熟悉的语音转文本技术,如 HTK、Kaldi 和 SRILM,或是来自谷歌、苹果、或者微软自身的个人数字辅助技术。
的确,正如 Galgon 提到的,“过去的几年目睹了说话人识别系统性能的巨大进步”。现在,开发人员能够利用微软在这一领域中所带来的技术进步开展更多的工作。
微软的牛津计划现在正蒸蒸日上,公司刚刚让说话人识别和视频 API 能够在一个公共预览中可获取。微软的牛津计划是公司专门为了应对人工智能未来发展的一个项目。从更广泛的意义上讲,伴随着视觉、听觉、或声音输入的进步,牛津计划代表了微软所认为的未来个人计算的演变状态。
至于说话人识别 API 的作用,开发人员可以期待通过说话人的说话方式,为用户提供更强的身份认证。 API 本身并不能代替现有的通用的身份验证方式,但可以将它作为现有方式的一种补充提高。微软期待围绕语音识别中的独特特征研发新的语音识别技术。
说话人识别的目标是帮助开发人员构建能够平衡便利与欺诈的智能身份验证机制。要实现这种平衡是非常不容易的。理想的情况下,为了建立标识,需要三块信息。
- 用户知道的东西(密码或 PIN)。
- 用户拥有的东西(一个安全的键盘、移动设备或信用卡)。
- 用户是什么(生物测定,例如语音、指纹、脸)。
微软的说话人识别 API 还使用了两个目前最先进的算法,来帮助从音频流中进行声音识别。新的组件被称为说话人验证和说话人识别。
说话人验证可通过验证用户的声音或语音自动检验和验证用户的身份。这是与身份验证的场景密切相关的,并经常与密码短语相关联。因此,我们选择了文本相关的方式,这意味着说话人需要在注册和验证阶段选择使用特定的密码短语。
说话人识别能够在给定一组预期的说话人的情况下,自动识别一个音频文件中的说话人。输入音频配对提供的一组说话人,在这种情况下,如果找到匹配,则返回说话人的身份。它与文本无关,意味着在注册和验证阶段对说话人的语音内容并没有限制。
尽管微软可以说是错过了移动计算的热潮,但是该公司已经表示,它们希望为智能手机和平板电脑之后的科技变革做好准备。许多高科技产业现在正在讨论支持语音和预测数字助手的未来。
随着越来越多的企业开始关注移动革命,有些人看到了包括人工智能在内的个人计算的下一代浪潮。微软发布的说话人和视频 API 的公开预览版是公司所做的一个赌注,他们正在试图将开发者引入他们的未来构图中。
感谢董志南对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。
评论