写点什么

微软技术院士黄学东:掌握核心的语音语言技术,AI 才有希望

  • 2018-05-28
  • 本文字数:4616 字

    阅读完需:约 15 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

2018 年 5 月 21,微软在北京举行了 2018 微软人工智能大会。会上展示了微软在人工智能领域的技术突破以及一些产品的功能展示,微软近来在语音领域的发展,尤其让人印象深刻。InfoQ 记者在会后采访到了微软全球资深技术院士,微软云与人工智能事业部负责人黄学东博士,进一步了解到微软在 AI 领域的一些进展和规划。

黄学东博士在微软工作已经超过 25 年。25 年的时间里,黄博士负责过很多项目,但是有一件事情没变:他是微软语音技术的创始人,微软的语音识别、语音合成技术都是他一手创建出来的。

在 25 年中,黄学东博士负责过很多东西,包括新产品的研发、通信系统、Bing 搜索、搜索广告、CNTK、深度学习平台、GPU 集群,还有智能客服系统、对话系统,认知服务里面的自然语言处理的所有东西。

黄博士认为,在人工智能发展的过程中,语音和语言也是皇冠上的明珠。他说:“只有掌握了核心的语音和语言技术,人工智能才有希望,否则其它都是在‘忽悠’。”

黄博士告诉 InfoQ,目前在“感知”方面,计算机视觉和语音识别进步都很大。在“认知”方面,这个进步还是有限的。微软机器翻译第一次达到了媲美人的水平,这是非常有历史性意义的事实。语音和语言是人类进化中重要的东西,而现在,计算机第一次在翻译质量上超过专业人士的水平,黄博士说:这对人类文明的进展来说是很震撼的。

InfoQ:谈到语音识别、自然语言处理,大家更多会想到具体的产品,比如音箱或者一个 APP。您认为这个东西就要变成一个大家可以消费的产品吗?这个产品会是什么样的业态,目前是不是还处于教育市场得阶段?未来会什么样?

黄学东:这个问题很好。语音技术是一个赋能的技术,所有的开发者都可以把这个技术拿过来,实现他自己想要做的东西,比如智能音箱,因为现在远场语音识别能力很强了,所以音箱火得不能再火了——“百箱大战”——今年 CES 展上基本上就只有两个东西,一个是自动驾驶,另外一个就是音箱,基本上可以占 CES 展台 80% 的东西。音箱出现很重要的一个原因就是语音识别技术进步到了这个水平,基本上可用了,就是远场交互都可用了。

再说回来,今年我觉得最热的是翻译器,尤其对中国人。因为老美出去走遍世界,他讲英文,好像别人都懂,中国人出去一讲中文,别人不知道什么意思。在中国每年有 1.2 亿的游客出去。现在我们跟小米生态链企业香蕉出行合作推出的魔芋翻译器,真是物美价廉,基本上只要目前市场上翻译器 1/10 的价格。它刚出来不到一个月,销售基本遍布全国各大城市,而且常常是脱销状态。

还有一个有趣的事情。出国到海外就会发现,国内的云服务在国外很难用,在国内做的演示很棒,但出了国云服务就没法用。香蕉出行的情况是倒过来的,因为我们的云服务是真正覆盖全球得,它在国外的表现非常好,大家用起来用户口碑很好,上市不到一个月现在是卖到完全脱销。这就是微软人工智能和中国企业结合得非常好的一个案例,我们非常高兴,小米也非常高兴。雷军想要给他的领导班子每人送一台——对不起缺货,这是真的故事。

InfoQ:在您看来,从技术上说翻译特别是中英翻译,是不是已经可以实现大规模产业化了?

黄学东:技术上已经是了。今天在我的演讲中演示了一个表,微软最新的机器翻译系统已经达到了 69 分。机器翻译这个东西不像语音识别是一对一,只有唯一的答案,机器翻译是多对多的,每个答案都可能是准确的,所以在评价机器翻译的时候,现在只能靠人来评,当然老师也很严格,100 和 0 之间相差很大。我们根据人来评的话,其实现有的商用系统像微软和谷歌的,在标准的测试集上分别在 56 分、54 分左右,中国企业的研发能力也很强,像搜狗公司,在微软推出最新突破之前有最优秀的系统,达到了 62 分的水平。

InfoQ:您在演讲中提到微软会跟中国移动去合作,这一部分有什么可以分享的?定制化云服务感觉上只是针对声调的不同进行区分,在人工智能上有什么样的差异化?

黄学东:我今天讲的内容非常多,我大概梳理一下。今天讲了一个事情是中国移动和微软正在合作,用微软的语音识别技术帮助他们解决客服中心的一些技术问题,这是一个非常了不起的事。因为中移动是全球最大的电信运营商,他们现在用最优秀的技术满足他们的客户需求,这本身就是一个有意义的创举。微软公司的人工智能技术、语音识别技术和全球最大的电信商合作,解决用户的实际工程需求。这是一个中美两国合作,让用户更加满意的一个非常好的案例。

第二,微软最近推出了很多全新的产品和服务,包括统一的语音识别 API,我们可量身定制所有的语音识别、语音合成、唤醒词和机器翻译系统。

第三,PMA,我们有一个普林斯顿计划,我们提供的麦克风阵列在全球都是具有领导性的。微软最新推出来的 PMA 麦克风阵列绝对是“黑科技”,绝对是“耳听八方”,我把它称为是“全武功”的会议人工智能系统。这个创新是基于微软黑科技的语音识别 DDK 设备开发套件,是我们跟中国本土的 Roobo 公司联合推出来的,也是微软和中国公司合作以高新技术领先世界新潮流的最好的案子。微软不仅仅是翻译器和中国本土公司合作,像这样先进的麦克风阵列也是和中国本土公司合作开发的。

InfoQ:您说语音识别是开启人工智能的重要一步,这是因为您是语音识别面的专家,还是说它的确对人工智能行业是至关重要的?

黄学东:我觉得大家应该有这样的共识。计算机视觉、计算机语言识别是“感知”智能,感知智能因为深度学习、神经网络实现了突破了,大家都非常激动。“认知”是包括推理、理解上下文、自然语言处理,这方面的突破还有待大家的努力。而机器翻译,则在感知和认知之间的一个历史性的里程碑。

让我们想象一下,如果有一天,机器可以理解我们所有的文本,了解上下文,有推理的功能,想象一下后果:这意味着机器可以 24 小时阅读所有的新闻、所有出版过的文件、著作、科学文献,它可以上知天文下知地理,包括生物,这是不是比爱因斯坦还牛?爱因斯坦也是只懂物理——这才是真正的“强人工智能”的来临。

强人工智能一定是由自然语言理解、感知驱动的,让计算机能达到人的知识获取能力,可以通过阅读自动获取知识,这是不是很厉害?过去 5000 年人类的所有文献,它都可以读得一个字不忘,还有超过人类得深入的理解。像我今天引用《封神演义》里的一句:眼观六路、耳听八方,其实《封神演义》里面讲的不是六路,是眼观四路、耳听八方。如果计算机在自然语言处理上进步了,就可以说黄学东在会上讲的眼观六方,不对,《封神演义》讲的是四方,不是六方。

InfoQ:产品路线图得下一步是哪些语种或者小语种?还有哪些语言已经进入识别了?为什么你会在这个上面有执念呢?因为你学了这个专业还是因为其他?

黄学东:我自己是一个有情怀的,这个情怀是什么呢?在清华大学做研究生的时候,我就想让语言的障碍不是成为我们交流的障碍,我觉得这件事情太有意义。

我在爱丁堡大学念的博士的时候读了达尔文得“进化论”,达尔文也曾在爱丁堡大学念医学,后来转到剑桥大学去念神学,毕业以后发表了进化论,跟神学完全决裂,这是很有意思的一件事。

我意识到人通过语言可以自然交流、相互合作,像我们来自五湖四海,今天可以组织起来在这个地方见面,都是因为有了语言。语言是促进人类进化得最重要的因素,就像我今天讲的,在人类进化的长河中,语音和语言是最重要的因素,有同样的重要性。我在清华上学的时候看得没有那么远,但是我当时就觉得语音和语言太重要了,至少我自己 30 年如一日,从没有放弃过这份情怀。

InfoQ:机器翻译在某种程度上已经人类的翻译水平差不多了,是不是意味着我们以后不用人工翻译了?是不是翻译人员就被淘汰了?您怎么看待人工智能给人类带来的威胁?

黄学东:我觉得这个事情不会,机器翻译出错误会出得比人类更离谱。我觉得最好的方法就是在机器转录翻译的时候,有人在旁边看着,有错误就给纠正一下,人和机器协同工作,这是最好的模式。

机器出错是出在什么地方呢?冷僻的词、新的概念。人可以实时学习冷僻的词和新的概念,这里的信息量非常大,人类马上可以自适应。比如我讲了一个很怪的词,大家一听觉得有意思,马上神经就高度紧张,注意力高度集中了,马上可以举一反三。而机器就惨了,怎么样处理没有见过的事情,这才是真的智能,也是人类智能和机器智能最大的区别。

跟人相比,不管是图像识别还是语音识别、机器翻译,机器其实都笨得要死,因为它不懂得举一不反三——孔子说过“举一不反三,不可教也”。

InfoQ:文字工作者在翻译的时候会讲究“信达雅”,从微软的机器翻译的水平讲,现在能够达到信达雅?还是离信还有几步的距离?

黄学东:如果是没有突发事件,那么是基本可信、基本可达、基本还算比较雅。

如果出现突发事件,就举一不可反三,这是人工智能和人的智能最大的差距。

我们说一个人灵不灵,主要看他处理突发事件时的决策怎么样,就能说明是不是真的行。一般的人处理常见的事情都可以,没问题,就像人工智能一样。而聪明的人,在面对突发事情、小概率事件,或者很困难的时候,可以做出正确的决策。现在人工智能和人类智能最大的差别,就是处理突发事件的能力差得远,这也就是为什么认知非常重要。认知是解决推理、解决小概率事件、获取知识、聚一反三,这个过程的最重要的一个代表和体现。

InfoQ:您反而觉得机会更多,而不会说一些工作被 AI 取代使机会变少?

黄学东:这就像当年在英国的时候汽车刚刚发明出来,被要求速度不能超过马车的速度,后来马车夫没有了,但是汽车工业造就了多少新的机会呢?同样的道理,人工智能会给我们的生产力赋能,变的更快、更好,让大家有更多的时间去做自己想要做的事情,我是非常乐观。

当年马车起主导作用的时候,你可以想象会有那么大的汽车工业吗?像钢铁、发动机、石油,这造就了多少就业机会。

AI 至少提高了工作的质量,有很多这样的案例。人以前要做很多重复性的工作,人和 AI 协同工作,就能提高我们的生产力,提高人的工作质量,这是人工智能和人协同工作,有很多这样的例子。

InfoQ:您会觉得通过语音识别竞赛带来差异化,使大家技术上差异越来越少吗?未来大家在竞争的话,是不是重点在结合各家整体的解决方案,比如说微软跟 Azure 结合,其他各家与自己的一些技术的结合上?

黄学东:比如在 Switchboard 上,微软是第一个达到了媲美人类水平的,这说明在研究测试级上,微软的技术是很强大的。但那个还不够,因为训练数据是固定的,计算资源是无限的。在做产品的过程中,倒过来了,训练数据可以无限,计算资源有限,因此看问题的侧重点不太一样。还有落地场景的事情,像微软“耳听八方”的会议系统,这个是我们自己用计算机视觉和语言识别打造的一套新的解决方案,前人没有想到,也没有做到的事。

InfoQ:大家会结合各自的定位把产品差异化做竞争,之前大家纯技术、纯研究方面的东西可能现在看差异化不会太明显吗?

黄学东:技术实力还是非常重要,人工智能会议系统它的技术要求远远超越了两个人的对话。真是像《封神演义》讲的耳听八方,很难的,根本顾不过来。我们的系统,它上面有一个 360 度的摄像头,就像九头鸟一样全看见了,会议室的东西都尽收眼底,下面还有 7 个麦克风的麦克风阵列,用的就是 Speech Device SDK。看起来像“黑塔”的那个东西就是用微软现有的云,加上现有的 DDK 打造的一个人工智能落地的实例。微软的服务都在,但别人没有打造出这样的一套东西,我提供了开发工具,但是要打造一套像 PPT 这样的应用程序,还是需要很多的工作。

2018-05-28 01:421270
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 275.7 次阅读, 收获喜欢 1301 次。

关注

评论

发布
暂无评论
发现更多内容

Intel:13/14代酷睿补丁几乎无损性能!未来所有产品都安全

E科讯

蓝易云 - 跨境服务器选哪个平台好?

百度搜索:蓝易云

云计算 服务器 云服务器 跨境电商 高防服务器

HollySys PLC笔记 查看LE5109L的外观

万里无云万里天

PLC 工业控制 HollySys PLC

科大讯飞t30ultra学习机和t20选哪个

妙龙

科大讯飞 学习机

im即时通讯平台,WorkPlus稳定安全可靠的即时通讯服务

WorkPlus

蓝易云 - mybatisplus多租户原理略解

百度搜索:蓝易云

云计算 运维 mybatis 云服务器 高防服务器

指如疾风,势如闪电-StarRocks Fast Schema Evolution in V3.3.0

Ding_Kai

大数据 LakeHouse StarRocks

iCalamus for mac(功能全面的版面设计工具) v2.27注册激活版

Mac相关知识分享

版面设计

Parallels Desktop 18 for Mac (Pd18虚拟机) v18.3.2永久激活版

Mac相关知识分享

pd虚拟机

蓝易云 - Python动态变量名定义与调用方法

百度搜索:蓝易云

Python 云计算 Linux 运维 云服务器

统计分析绘图软件:GraphPad Prism 10 (Win/Mac)激活版

你的猪会飞吗

mac软件下载 Mac破解软件

科大讯飞T30 Ultra和T20 Pro区别对比

妙龙

学习机 科大读飞

HollySys PLC笔记 安装AutoThink

万里无云万里天

PLC 工业控制 HollySys PLC

淘宝买家秀API深度解析:数据驱动的热门晒单与趋势预测

代码忍者

延迟降10倍,冷查不担心

Ding_Kai

实时数仓 存算分离 StarRocks 湖仓一体 starrocks查询性能优化

Steinberg Dorico Pro for Mac(乐谱编写软件) v5.1.51中文激活版

Mac相关知识分享

音乐制作软件 乐谱制作

文献管理软件:EndNote X9 (Win&Mac) 特别版

你的猪会飞吗

Mac软件 mac破解软件下载

全球化浪潮下的数据库革新:嘉里物流 TiDB 实践价值的设想

PingCAP

数据库 物流 TiDB

蓝易云 - git快速查看某个文件修改的所有commit

百度搜索:蓝易云

git 云计算 运维 云服务器 高防服务器

蓝易云 - dockerfile基于apline将JDK20打包成镜像

百度搜索:蓝易云

Docker 云计算 jdk 运维 高防服务器

交互式原型设计工具:Axure RP 8 for Mac 汉化版

你的猪会飞吗

Mac破解软件 Mac软件下载站

科大讯飞T30 UItra AI学习机和科大讯飞p30对比评测

妙龙

科大讯飞 学习机

PingCAP 崔秋当选 CCF 数据库专业委员会执行委员

PingCAP

TiDB CCF pingCAP

深度解析 MetaArena 游戏引擎,如何让 GameFi 应用更具生命力?

股市老人

横扫鸿蒙弹窗乱象,SmartDialog出世

小呆呆666

flutter ios android 前端 HarmonyOS

即时通讯哪个好?五大私有化即时通讯软件推荐

WorkPlus

解析淘宝买家秀API返回值中的热门晒单与趋势预测

技术冰糖葫芦

CADintosh X for Mac(CAD制图软件) v8.8.7 (745)激活版

Mac相关知识分享

cad软件

从 MySQL 迁移到 TiDB:使用 SQL-Replay 工具进行真实线上流量回放测试 SOP

PingCAP

MySQL 数据库 TiDB

电商数据挖掘:淘宝/天猫商品详情API实战解析与应用

代码忍者

Agisoft Metashape Professional for mac(三维建模重建软件)激活版

Mac相关知识分享

微软技术院士黄学东:掌握核心的语音语言技术,AI才有希望_微软_陈思_InfoQ精选文章