过去几年中,深度学习技术重新燃起了人们对人工智能的兴趣,它帮助解决了计算机视觉、自然语言处理以及语音识别领域中的许多关键问题。然而,随着深度学习的成熟以及它从炒作高峰到幻灭低谷的转变,它所缺少的一些基本组成部分渐渐浮出水面。
在去年,深度学习和其主要技术,人工神经网络的众多先驱者在多个人工智能大会上都承认了这一事实。三位“深度学习的教父”,Geoffrey Hinton、Yann LeCun,以及 Yoshua Bengio 都提起过神经网络的局限性。
现在问题来了,我们路在何方?
Bengio 在 NeurIPS 2019 上讨论了深度学习2号系统,这是一种新一代的神经网络,可以处理组合性、无序分布和因果结构。在 AAAI 2020 大会上,Hinton 讨论了卷积神经网络(CNN)的缺点以及向胶囊网络发展的需求。
但是对于认知主义科学家 Gary Marcus 来说,开发神经网络与符号人工智能(在深度学习兴起之前曾经主导该领域的人工智能分支)二者相结合的混合模型才是问题的解决之道。在题为《人工智能的下一个十年:迈向强健人工智能的四个步骤》的论文中, Gary Marcus 对混合人工智能如何解决当今深度学习面临的一些基本问题做了探讨。
延伸阅读:[深度学习的进步促进了计算机视觉的发展,但是仍然存在明显的局限性]
连接主义者作为纯粹基于神经网络方法的支持者,拒绝任何回归符号人工智能的提议。Hinton 曾将混合智能类比为电动机与内燃机的组合体,Bengio 也曾在多个场合回避过混合人工智能的探讨。
但是 Gary Marcus 认为,前进的道路在于化干戈为玉帛,将这二者的优势结合起来。
深度神经网络中缺少了什么?
关于深度学习的局限已经有很多深入的讨论了,但在这篇文章中我更想谈谈一个在过去几月中被反复提及的话题,那就是知识的泛化。虽然人工智能还需要几十年才能到达类人的程度,但眼下我们仍然可以努力打造更强大的智能技术。
Gary Marcus 这样定义“强人工智能”,“这种智能不一定要超越人类或可以自我改善。它可以借助人工智能所拥有的知识,以其系统且可靠的方式处理更广泛的问题,综合不同来源的信息让这种智能可以灵活、动态地对世界进行推理,就像正常成年人一样,将它在某个环境中学习到的知识转移到另一个环境中。”
目前的深度学习系统中还缺乏一些关键的特性。深度神经网络可以吸收大量的数据并利用强大的计算资源解决某些棘手的问题,例如检测某些特定种类的对象,或者是在特定条件下打电子游戏。
然而这些智能在泛用它们技能方面表现并不是很好。“如果实际环境和训练环境有哪怕一丁点的偏差,它们基本就指望不上了,”Gary Marcus 如是写道。
举例来说,经受过上千次椅子图片训练的人工智能在没有见过倒立椅子图片的情况下会认不出来一把颠倒的椅子。经历数万小时《星际争霸2》游戏训练的超级人工智能可以拥有职业玩家的水平,但也仅限在一定的条件下。一旦游戏中的地图或者单位改变,它的性能就会直线下降。而且你也不能指望它能理解其他类似的游戏,诸如《魔兽争霸》或者《命令与征服》等。
职业选手级别深度学习算法会打星际争霸不代表会打其他类似游戏。同样,如果游戏设定变动,哪怕知识出现小小的改变,都会让 AI 无法继续保持它的游戏水准。
目前智能泛化问题的解决方法是扩展模型:搭建更大的神经网络,收集更多的数据集,使用更大的服务器集群,以及对加强后的学习算法训练更长的时间。
“虽然这种方法能看到成效,但我们仍然需要从根本开始重新思考,”引自 Gary Marcus 的论文。
事实上,“越大越好”的方法在充其量带来一定程度优化的同时,还会引出其他尚未解决的问题。其中一件就是,开发训练如此大型的神经网络需要巨额的成本,而这些资源几乎都掌握在这一领域中的那些资金雄厚的科技公司手上。
当涉及到语言处理任务时,神经网络的弱势就更加明显了。诸如OpenAI GP-2以及谷歌的聊天机器人Meena等语言模型都拥有超过十亿个参数(神经网络的基本单位),并通过以 GB 为单位的文本数据训练。即使如此,它们还是会犯一些非常愚蠢的错误,正如 Gary Marcus 在他今年早些时候发布的文章中指出的一样。
“当纯粹的计算能力被应用于开放领域(例如对话语言的理解和对世界的推理)时,计划永远赶不上变化。得到的结果总是会过于零碎且参差不齐,完全无法依靠。”Gary Marcus 如是写道。
这番话的重点在于“开放领域”。开放领域可以是通用型聊天机器人或者 AI 助手,AI 助理通过与道路、房屋、工厂、商店等事物交互,可以直接与人类合作。过去的经验则证明了是神经网络本身的僵化性质妨碍了它们解决开放领域的问题。这一点同样在 Gary Marcus 的论文中有详细的探讨。
为什么我们需要结合符号人工智能和神经网络?
连接主义者认为,基于纯粹神经网络结构的方法最终会带来强人工智能或通用人工智能。毕竟,人脑是由物理神经元组成,而不是由物理变量、类占位符和符号组成的。
但正如 Gary Marcus 论文中提出的,“一定形式的符号操控似乎对人类的认知系统而言至关重要,比如说小孩学习某种抽象语言模式,就像“姐姐”这个可以存在于无数个家庭中的词语,或者是成年人对他所熟悉的语言模式有了标新立异的看法,这些都不是训练能实现的。”
Gary Marcus 的假说得到了过去几十年来几位认知学家的认可和支持,他自己的书《代数思维》和最近的《重新启动人工智能》也都提到了这一点。另一本值得一读的是史蒂芬·平克的著作《心智探奇(How the Mind Works)》的第二章,他提出了证明符号操纵是大脑功能重要组成部分的证据。
我们已经有证据表明符号系统是可行的了,它无处不在,网页浏览器、操作系统、应用程序、游戏等等,都是基于规则的程序。“讽刺的是,世界上几乎所有的神经网络规范和执行都在使用这一套工具”,Gary Marcus 如是说。
数十年来的计算机科学和认知科学发展证明,存储和操纵抽象概念的能力对任何智能系统来说都是必不可少的一部分。这也就是为什么符号操纵也应该作为任何强健智能系统的重要部分之一的原因。
“从这一刻起,出现了对结合符号操作以及诸如深度学习等技术的混合架构的基本需求,” Gary Marcus 说。
混合智能的示例
混合智能系统的优点在于它们使神经网络与符号人工智能的强项相结合。神经网络可以从真实世界中收集到的混乱信息找到规律,例如视觉以及声音数据,大量非结构化文本、电子邮件、聊天记录等。基于规则的 AI 系统可以对这些提取到的信息进行符号操作。
尽管混合智能饱受连接主义专家们的批判,仍有大量证据证明这些系统在工作中的优势。正如 Gary Marcus 在他的论文中所指出的,“研究人员偶尔会在不自觉的情况下构建包含符号操作装置的系统,他们甚至都不会认识到自己这么做了”。Gary Marcus 还列举了几个证明混合智能正在悄无声息地解决着重要问题的例子。
其中一个例子是由 MIT 和 IBM 的研究者提出的混合智能系统,“神经-符号概念学习器(Neuro-Symbolic Concept Learner,NSCL)”。NSCL 通过结合神经网络解决了视觉问答(VQA)问题,而单纯使用神经网络为基础的方式很难解决这类问题。研究者在CLEVR数据集(VQA 问题中使用的渲染对象图像的数据集)上测试了 NCSL,准确率非常喜人。混合智能模型使用了更少的训练数据来达成更清晰的结果,一举解决了困扰深度学习的两个基本难题。
谷歌的搜索引擎就是一种大型混合智能,它组合了诸如Transformers这样的顶尖深度学习技术,及诸如知识图谱导航工具这样的符号智能技术。
AlphaGo,过去几年中最具里程碑意义的人工智能成就之一,是另一个将符号智能与深度学习相结合的示例。
“通过组合符号主义优势与机器学习见解的架构,我们得以开发出更优秀的,提取归纳有大量噪音的大型数据集中抽象信息的技术,这样的架构搭建可以有很多的起点,”Gary Marcus 写道。
这篇论文随后更详细地介绍了混合智能系统的组成部分,以及诸如变量绑定、知识表示和因果关系等关键要素的与统计近似的集合。
“我个人坚信,任何强健系统都需要有某种用于变量绑定,以及一旦绑定就可以对这些变量执行操作的机制。但只是纸上谈兵是不够的。”Gary Marcus 写道。
从历史中学习
值得一提,在过去的几年中,Gary Marcus 几乎是凭借一己之力、克服所有困难,坚持将人工智能发展以来的所有成就都整合起来,用于推动整个领域的发展。而要知道当时人工智能领域中绝大部分的杰出人士都拒绝重新考虑符号控制的可能性。
Gary Marcus 坚持不懈的举动让人不禁联想起 Hinton、Bengio 和 LeCun 在外界对神经网络毫无兴趣的情况下几十年如一日地推动其发展。他们对深度神经网络的信念最终“修成正果”,不仅引领了 2010 年代对深度学习的革命,也在2019年为他们获得了图灵奖。
而 Gary Marcus 对开发强混合智能系统的追寻最终将带来什么,这很让人好奇。
延伸阅读:
评论