AI大佬“互怼”：图灵奖得主Yoshua Bengio杠上Gary Marcus_AI&大模型_Gary Marcus

AI 大师、图灵奖得主 Yoshua Bengio 在近日陷入了一场“舌战”，与他“交火”的对象是现年 49 岁的 Gary Marcus。Marcus 是 Robust.AI、Geometric Intelligence 两家 AI 公司的创始人，本身也是研究人工智能多年的科学家，同时还是一位畅销书作家。

两人争论的焦点在于：神经网络是不是通用人工智能的解决方案？

深度学习的出现为进展缓慢的人工智能领域带来了突破，而神经网络更是让人们看到了未来无限的潜能。随着神经网络的广泛使用，不少企业、研究机构已经构建出了层数、复杂度都相当可观的模型，但是瓶颈还是出现了：通用人工智能的目标仍然难以达成。

对此，AI 大师、图灵奖得主 Yoshua Bengio 认为：除非深度学习能够超越模式识别并真正掌握因果关系的更多信息，否则它根本不可能发挥其全部潜力，也无法带来真正的 AI 革命。换句话说，深度学习应当开始理解“为什么”。

Yoshua Bengio

举例来说，理解了因果关系之后，现有 AI 系统将在智能度与执行效率方面更上一层楼。比如要让一个机器人理解：快速下落的瓷器极易损坏，就不需要把几十个花瓶扔到地上再观察结果。

而且 Bengio 认为，一旦深度学习在因果关系上取得突破，同样陷入瓶颈的自动驾驶领域也将迎来新的进展。

但是，Gary Marcus 似乎与 Bengio 的观点稍有分歧，尤其在神经网络方向，Marcus 认为：与其执着于神经网络的研究，不如尝试一下其他的方向，比如符号系统。

Yoshua Bengio 的说法

首先是 Yoshua Bengio在Facebook发布的一段话：

我近期的研究项目旨在研究当前深度学习系统的弱点，以便设计出在更高层次的认知和更大的组合（和系统）概括方面更强大的系统，包括因果关系和推理的处理，而 Gary Marcus 似乎很喜欢引用我在谈论这一项目时的部分说法。

他不同意 Yann LeCun、Geoff Hinton 和我所表达的观点，即：神经网络确实可以成为一种“通用的溶剂”，将进一步的认知能力整合到计算机中。他倾向于认为：深度学习仅限于感知，需要与符号处理相结合。

就这一点来说我不能完全苟同。

我同意 GOFAI 的目标（如 System II 的执行顺序推理的能力特征认知）很重要，但我相信他们可以执行而呆在一个深度学习框架，尽管这使得大量使用注意力机制（因此我的意识之前的研究项目）和注入新建筑（如模块化）和训练框架（如元学习和一个基于主体的视图）。

编者注：GOFAI （Good Old-Fashioned Artificial Intelligence）有效的老式人工智能。 GOFAI 泛指用最原始的人工智能的逻辑方法解决小领域的问题，例如棋类游戏的算法。

人工智能是否可以使用高级符号表达，如词和想法？还是需要“子符号”的处理？1986 年，John Haugeland 提出了 GOFAI 的概念，其主要内容诠释了人工智能的哲学意义，也提议人工智能应归类为 Synthetic Intelligence，这个概念后来被某些非 GOFAI 研究者采纳。

我敢打赌，一个简单的混合将深层网络的输出离散化，然后传递给 GOFAI 符号处理系统是行不通的。

为什么？原因有很多:

（1）你需要学习 System II 部分和 System I 部分；

编者注：所谓“System I”和“System II”的观点出自一本书：《Thinking，Fast and Slow 》，作者是诺贝尔经济学奖获得者 Daniel Kahneman，其中心论点是两种思维方式之间的二分法：“System I”是快速，本能和感性的；“System II”更慢、更仔细、更合乎逻辑。该书从 Kahneman 自己的研究开始，描述了与每种思维相关的认知偏见。

（2）还需要表示不确定性；

（3）暴力搜索（bru- force search，符号处理系统的主要推理工具）不具有可伸缩性，人类使用无意识（System I）处理来指导推理中涉及的搜索，因此 System I 和 System II 是紧密结合的；

（4）你的大脑本就是一个神经网络（而非符号系统）。

Gary Marcus 的回应

针对上述观点，Gary Marcus进行了回应：

Gary Marcus

亲爱的 Yoshua：

感谢你在 Facebook 上发表的笔记，下面再作转载，然后发表自己的想法。感谢你抽出宝贵时间考虑这些问题。

我非常高兴的是，我们之间的共识多于分歧，并且像你一样，我也希望该领域可以从我们的共识与分歧中受益。

共识

就其本身而言，深度学习是一种有价值的工具，但就目前的形式而言，其本身不足以使我们研发出通用智能。
当前的深度学习技术通常只会产生比较浅层的结果，且推广性较差。自 1992 年我首次发表该观点以来，我就一直在为此争论，在我写给《纽约客》的一篇文章中就提出了这一点。这也是我 2001 年推出的一本关于认知科学的书的重点。你最近关于因果关系的arXiv文章几乎恰好呼应了《代数思维（The Algebraic Mind）》的中心点：在训练空间之外进行概括对于许多常见的神经网络来说都是具有挑战性的。
我们都还同意将因果关系纳入其中的重要性。数十年来，Judea Pearl 一直在强调这一点。我相信我可能是第一个于 2012 年在《纽约客》相关文章中针对深度学习特别强调这一点的人。
我同意你的看法，至关重要的是要了解如何将“System II”推理（我喜欢称之为“推理”）纳入人工智能的工作流程。古典 AI 提供了一种方法，但另一种方法有其自身的重大局限性。探索是否存在替代方案当然很有趣。
你建议合并的许多或全部内容，尤其是模块化和元学习（meta learning）可能会有用。我以前的公司对元学习具有极大的兴趣，并且我也是模块性和构建更结构化的模型的支持者；多年来，我的竞选活动很大程度上是为了增加结构（Ernest Davis 和我在新书中明确认可这一点）。我不确定你对基于代理的观点有什么想法，但这对我来说也很合理。

分歧

你似乎认为我倡导“利用一种简单的混合方法对深层网络的输出进行离散化处理，而后将其借贷无门比例 GOFAI 符号处理系统”，实际上我从没有提出过这样的建议。我非常支持混合处理方法，但可能需要一些更精妙的实现办法。另外，我也从没表达过所有核心处理都直接由 GOFAI 完成的观点。相反，我和 Davis 在最近的书中也对 COFAI 提出了反对意见：在“常识与认知科学”章节中，我们提出一种混合方法，其效果优于现有 GOFAI 加深度学习的简单组合。我完全赞同我们有必要在 GOFAI 之外，引入更丰富的不确定性概念。虽然个人认为深度学习可能并不特别适用，但我们也像你一样努力游说各方在 System II 中添加更多学习元素。
也就是说，我认为符号处理（GOFAI 提出的一项核心承诺）非常重要，而你大大低估了它的价值。
首先，世界上相当一部分知识都是用符号表示而成（例如整个互联网中常见的非结构化文本形式），而目前基于深度学习的系统明显缺乏充分利用这类知识的方法。我可以向孩子描述，斑马就是一匹长有条纹的马，他们听过一次就能掌握这种知识，并将其与自己的感知系统相结合。但目前的深度学习系统还无法可靠地实现类似的学习能力。
在没有符号处理系统的前提下，我认为我们将无法实现深入的自然语言理解能力；事实上，我认为整个认知科学（语言学）领域对此都不够重视。我承认，深度学习在语言翻译方面确实获得了巨大的进步，但在健壮的会话解释能力方面却一直没能取得进展。
老实说，我觉得没必要把符号处理系统从通用人工智能工具当中剔除出去；当然，你在发言中并没有表达这类观点。我想说的是，世界上绝大多数软件仍然由符号处理代码构成；既然如此，我们为什么要从全面的通用型智能方案当中排除这些明显具有重要价值的工具？
我觉得你高估了一站式概念的实际意义；当然，能通过单一架构捕捉所有认知确实很棒，但我认为这样的期望缺少现实支持。认知/通用智能是一种多维事物，其中包含众多不同的挑战。现有深度学习在认知分类方面表现得非常出色，这也是任何具有智能的生物都能完成的工作；但根据目前的构造来看，深度学习并不适合处理其他性质完全不同的问题。把一组实体与一组预定类别映射起来（这也是深度学习所擅长的工作），当然跟从无数个句子当中整理出前所未有的理解内容有所区别，现在的深度学习也无法跨越多个时间尺度制定出可行的计划。我们没必要强求深度学习能够很好地解决后两种问题，毕竟不同的问题本身存在着巨大差异。在生物学当中，对于人类这样复杂的生物体，我们发现大脑当中包含多个不同区域，其基因表达方式会略有差别。大多数解决问题的方法都依赖于神经架构中的不同子集，并由它们精确调整对问题性质的理解方式。在具有不同计算能力的系统之间进行门控似乎正是人类智能的本质。对我来讲，期望完整复制这样一套庞大的架构可能有点不切实际。
在帖子的结尾处，你似乎在暗示由于大脑属于神经网络，因此我们可以推断出它并不属于符号处理系统。但是，我们并不清楚大脑属于哪种神经网络，而且通过各种证据，我们也发现神经网络可以直接实现具有符号处理能力的图灵机。另外，我们都知道，人类可以通过训练掌握符号处理能力。在接受过训练的人们处理逻辑、代数或者物理学等工作时，人类的大脑（属于架构不明的神经网络）明显能够执行一部分符号处理工作。真正的问题是，这一点有多重要？符号处理能力又是如何在大脑中实现的？
你在“神经网络”与深度学习之间的表述有些模棱两可。但在我看来，两者可能并不相同；我认为深度学习（目前的实践方法）属于构建并训练神经网络的方法之一，但绝非唯一途径。它可能与人类大脑的工作方式有关，也可能完全无关，甚至有可能与未来某种更先进的综合神经网络毫无关系。Fodor 与 Pylyshyn 在联结主义心理的实现方面就抱持着不同的观点，后者希望利用神经网络建立诸如图灵机以及去联结主义之类的目标，而非单纯建立能够实现符号处理的神经网络。我完全相信，适用于 AI 的一切最终都能够通过神经网络实现，但问题在于这种神经网络的本质是什么。在近 30 年的研究当中，我一直坚持着同样的主张：能够成功实现通用智能的神经网络，需要具备对变量的处理能力——最近出现的一些可微编程进展就体现出这一点。相比之下，简单的多层感知器则不需要这样的能力。
我认为你过度关注因果关系的倾向限制了观察的视野；最重要的是定量评估一种因素对另一种因素的影响程度，而且建立起一种机制以生成因果关系推理。例如，一个人是如何弄清该使用刨丝器的哪个部分来切碎奶酪的？刨丝器上的孔形与随后产生的奶酪屑之间又存在着怎样的关系？单纯指定孔形与磨碎奶酪间的关联还不够，这里我们可能需要结合丰富的符号处理元素，从而将与功能等抽象概念与我们打算进行的操作联系起来。

空白

你实际上并没有提及自己对于建立先验知识的看法；对我来说，这无疑才是最核心的问题，但却在目前的深度学习工作中被严重忽略。我希望能听听你对于天分的看法，以及是否认为向 ML 当中添加更多先验知识将是推动技术进一步发展的重要方法。

挑挑骨头

有时候，你对我的陈述有点不尽不实。我认为，如果你能客观表达我的实际立场，而非引入曲解观点，那么这段对话的质量可能会更高。举个例子，你似乎没有意识到 Rebooting AI 其实也在做很多你认同的工作；你在帖子里提到：

“将深度网络的输出离散化，而后传递到 GOFAI 符号处理系统的这种简单混合方法不会起效。为什么？原因很多：（1）你需要同时在 Systyem II 的组件与 Systyem I 的组件中学习；（2）你需要同时表达其中存在的不确定性……”

Ernie Davis 和我实际也提出过相同的观点：

“……以手动方式对机器需要了解的一切进行编码根本就没有可行性。机器必须有能力自主学习很多内容。我们可能需要手动编码某些基本事实，例如锋利的硬质刀片能够切割柔软的材料，但是 AI 应该能够在这项知识的基础上自己摸索出刀具、刨丝器、割草机以及搅拌机的工作原理，而不是硬性要求我们为其逐一编码。”

再来说第 2 点，我们也会强调不确定性与 GOFAI 的局限性：

“我们一直以来所探讨的形式逻辑只能达成一个目标：让我们能够掌握我们所确定的知识，并利用始终有效的规则据此推断出新的知识。如果我们完全确定 Ida 拥有一部 iPhone，而且完全确定 iPhone 由苹果公司制造，那么我们就可以确定 Ida 拥有一款苹果制造的产品。但是生活中有多少能够绝对确定的因素？正如 Bertrand Russel 所写道，「人类的一切知识都具有不确定性、不准确性以及局限性。」但是，人类能够通过某种方式管理这些问题。当机器最终也获得这种管理能力时，就意味着它们能够像人类一样利用这些不确定、不准确且存在局限的知识进行表达与推理，那才是真正灵活且强大的通用型 AI 方案。”

如你所见，我们在这类问题上其实处于同样的立场；在上面的帖子中，你实际上是树了个靶子在打，我们的观点并非如此。
与此同时，我认为你没有提到自己的观点在发生改变；你在 2016 年《自然》杂志上发表的论文提出了更为尖锐的观点，而且当时你对深度学习局限性的表述也远少于现在。
非常感谢你能参与这次讨论；我也很高兴你能引用我的工作成果，这也是对我努力的一种肯定。举例来说，在你最近发表在 arXiv 的论文中，我们看到你关注以下问题：

“目前的机器学习方法在将所学经验推广到训练场景之外时，似乎表现得不够强大……其仅能够在与训练数据具有相同分布的采集测试集上获得良好的推广效果，而这显然远远不够。”

其实我早在 1998 年的论文中所表达过类似的观点：

目前流行的去联结主义模型，无法学会如何在训练空间之外实现通用性扩展。

以下是 2001 年《代数思维（The Algebraic Mind）》中第 3 章部分的重点内容：

*“多层感知器无法在训练空间之外推广某种通用性质的量化功能。在某些情况下，人类似乎可以利用有限的数据进行自由概括，但反向传播训练而成的某些多层感知类型往往无法得到相同的效果。”

我曾多次在公开与私下场合提醒你注意这种迹象，也曾强调这些迹象对你的研究框架非常重要，但你似乎从未对此做出回应或者引用。

尽管存在分歧，但我仍是你忠实的支持者。这一方面是因为你长期以来的努力探索与出色工作，同时也是因为你近年来在评判深度学习局限性方面表现出的诚实与正直。我欣赏你将 AI 技术应用于更大的人类福祉的愿景，也真实地希望更多人能够以你作为成长的榜样。

如果你能够将因果关系（及其在人类身上表现出的丰富形式）引入深度学习，那么相信通用人工智能也将因此而受益匪浅。我期待着你后来的探索，也期待着下次来蒙特利尔时能有机会拜访你和你的实验室。

祝好，

Gary Marcus

结语

不论两人之间存在共识还是分歧，又或者这样的争论结果如何，两位大佬都是行业内的翘楚，这样的讨论相信会给整个人工智能领域带来一些灵感，未来的发展之路可能就在这一次次的思想碰撞中产生。对于通用人工智能的发展你有哪些想法？欢迎留言与同行们共同交流！

发布

暂无评论

创作场景

AI 大佬“互怼”：图灵奖得主 Yoshua Bengio 杠上 Gary Marcus

Yoshua Bengio 的说法

Gary Marcus 的回应

共识

分歧

空白

挑挑骨头

结语

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载