短短几年间,深度学习算法已发展到能够在棋牌游戏中打败世界上最优秀的玩家,并且能够以与人类相同的正确率(甚至可能更好)识别人脸。但事实证明,掌握人类语言的独特而深远的复杂性是人工智能面临的最严峻的挑战之一。
这种情况会改变吗?
计算机可以有效地理解所有人类语言,它将彻底改变我们与世界各地品牌、企业和组织接触的方式。现在,大多数公司都没有时间回答顾客提出的问题。但是你可以想象一下,如果一个公司能够在任何时候、任何渠道,倾听并理解和回答所有的问题呢?为了抓住存在的这个巨大机会,我的团队已经和一些世界上最具创新能力的组织及其技术平台生态系统一起建立了大规模的一对一客户交流。但是仍有大量工作要做。
一直到 2015 年,一种能够识别人脸的算法才得以建立,其正确率堪比人类。Facebook 的 DeepFace 的正确率是 97.4%,与人类 97.5% 的表现相差无几。作为参考,FBI 的面部识别算法只能达到 85% 的正确率,也就是说,每 7 个案件中,仍有 1 个以上的案件是错误的。
FBI 的算法是由一个工程师团队手工制作的。每一个特征,比如鼻子的大小和眼睛的相对位置,都是人工编程的。Facebook 的算法则是利用学习到的特征。Facebook 使用了一种特殊的深度学习架构,称为卷积神经网络,它能模拟我们视觉皮层的不同层对图像的处理。由于我们不知道我们到底是如何看到的,所以这些层之间的连接是由算法学习的。
Facebook 之所以能做到这一点,是因为它想明白了如何将人类级人工智能的两个基本要素落实到位:一个能够学习功能的架构,一个由数百万用户标注的高质量数据,这些用户在分享的照片中为好友添加了标签。
语言是视觉的
在生物进化过程中,视觉是被数以百万计的不同物种所解决的问题。但是语言却显得更加复杂。就我们所知,我们目前是唯一能用复杂语言进行沟通的物种。
不到十年前,要理解文本的含义,人工智能算法只会统计某些词出现的频率。但这种方法显然忽略了这样一个事实:即单词具有同义词,而且只在特定语境下具有意义。
2013 年,Tomas Mikolov 和他在谷歌的团队发现了如何创建一个能够学习单词含义的架构。他们的word2vec算法将同义词相互映射,它能够对大小、性别、速度等意义进行建模,甚至能够学习国家及其首都这样的函数关系。
然而,缺失的部分是上下文。这一领域真正的突破出现在 2018 年,谷歌推出了BERT模型。Jacob Devlin 和他的团队回收了一种通常用于机器翻译的架构,让它根据句子中的上下文来学习单词的意思。
通过教会该模型填补维基百科文章中的缺失词汇,该团队能够将语言结构嵌入到 BERT 模型中。在只有有限数量的高质量标签数据的情况下,他们能够针对多种任务对 BERT 进行微调,从寻找问题的正确答案到真正理解一句话的内容。他们是第一个真正掌握了语言理解的两个基本要素:正确的架构和学习大量高质量的数据。
2019 年,Facebook 的研究人员得以更进一步。他们同时在 100 多种语言上训练了一个类似 BERT 的模型。该模型能够学习一种语言的任务,例如英语,并将其用于其他任何一种语言的相同任务,例如阿拉伯语、汉语和印地语。这种语言无关的模型在训练的语言上的表现与 BERT 相同,从一种语言到另一种语言的影响是有限的。
这一切技术本身的确令人印象深刻,但是到 2020 年初,谷歌的研究人员终于能够在广泛的语言理解任务中超越人类。谷歌通过在更多的数据上训练一个更大的网络,将 BERT 架构推向极限。这种被称为 T5 的模型现在在标记句子和寻找问题的正确答案方面比人类做得更好。10 月发布的语言无关的 mT5 模型在从一种语言翻译到另一种语言方面几乎和双语人类一样出色,但它可以同时处理 100 多种语言。而谷歌刚刚宣布的万亿参数模型,则让这个模型变得更庞大、更强大。
可能性
想象一下,聊天机器人可以理解你用任何想象中的语言写的东西。它们会真正理解上下文并记住过去的对话这个时候,你得到的答案不再是泛泛的答案,而变成了切中要害的答案。
随着时间的推移,随着公司对这些微调工作的投资,我们将看到有限的应用出现。而且,如果我们相信摩尔定律,我们可能会在五年左右看到更复杂的应用。但是新的模型也会出现,超过 T5 算法的性能。
2021 年伊始,我们距离人工智能最重大的突破,以及由此带来的无限可能,已触手可及。
作者介绍:
Pieter Butters,Sinch 机器学习和人工智能工程总监。
原文链接:
https://venturebeat.com/2021/01/17/language-ai-is-really-heating-up/
评论