ChatGPT等AI很强大，但为什么还会给人“人工”的感觉？

尽管人工智能已经取得了许多成功，但仍然达不到我们所需的智能感。而考虑到智能的多面性，深度学习不太可能成为我们迈向 AGI 的唯一方法，组合使用多种方法似乎比完全依托深度学习更合适。

本文最初发布于 DeepGram。

人工智能（AI）无处不在，令人着迷。

1997 年，IBM 的深蓝打败了国际象棋大师 Gary Kasparov；IBM 的 Watson 打败了 Jeapordy!人类冠军。2016 年，DeepMind 的 AlphaGo 通过融合搜索树和深度学习，击败了围棋界传奇人物李世石。现在，利用智能手机摄像头和人工智能创建的增强现实，可以从良性痣中分析出异常痣，帮助皮肤科医生实时预测黑色素瘤。OpenAI 的ChatGPT可以很好地解释 Bob Dylan 创作歌曲的方法，就跟它是 Mike Tyson 一样（反之亦然）。人工智能甚至正在侵蚀许多人认为只属于人类的创意领域，例如 OpenAI 的DALL·E 2等生成式人工智能模型生成了超现实的、可媲美人类品质的二维艺术。

除了这些引人注目的成就之外，许多宣传较少的人工智能应用也在稳步发展。人工智能加持的智能拖拉机使用计算机视觉来跟踪单株植物的健康状况，监测害虫和真菌的活性，甚至对某个种类的杂草进行精确的农药喷洒。在非洲和亚洲，在人手和资金不足的情况下，公园护林员会使用 PAWS（一种预测偷猎活动的人工智能系统）来调整他们的巡逻路线。欧洲正在广泛采用自动机器人割草机，它们在美国也开始流行。人工智能的突飞猛进令人印象深刻，目不暇接。

回想一下你第一次了解（或使用）自己最喜欢的人工智能应用程序——确实给你留下了深刻印象的应用程序。我们姑且称这个应用程序为 A，也许现在你已经不再对 A 抱有幻想，但是当你第一次遇到 A 时，你觉得它智能吗？或者是接近智能吗？尽管它们很有用，但在使用人工智能应用程序时——通常情况下——我们并没有真得觉得自己是在与智能互动。

有充足的证据可以证实我们的感觉。稍微调整下 AlphaGo 或深蓝等游戏 AI 的棋盘尺寸，使其和训练时不一样，它们就很容易出错；人类可以相对轻松地做出调整以适应这种变化。尽管大型语言模型（LLM）可以非常精确，但在试验 LLM 的大约十分钟时间里，你一定会发现，在不了解这些单词的潜在语义的情况下，使用一些庞大的训练语料库输出下一个最有可能的单词，有很大的局限性。计算机视觉也取得了长足的进步，但自动割草机有时仍会弄伤因恐惧而呆住的刺猬，而人类很容易识别和避开这种动物。如果你仔细观察人工智能的卓越成就，就会发现它的背后还有许多明显的不足。

想象有一个连续体，向一端移动我们就会接近某种超级智能；向相反的方向移动我们就会更接近石头脑袋。总有一天，我们可能会回忆起人工智能还不那么智能的“美好时光”，但就目前而言，几乎所有的人工智能系统都可以从向超级智能的缓慢进化中受益；我们至少希望游戏 AI 可以处理不同大小的棋盘，聊天应用程序可以掌握我们映射到单词和句子的概念，割草机可以绕开草地上休息的刺猬。

为什么我们会觉得在过去几十年取得了许多进步之后，人工智能应用距离智能仍然如此之远？这有什么关系吗？

向着 AGI 前进

人工智能的最新进展都严重依赖于深度学习。既然深度学习已经让我们走了这么远，那么就有理由相信，深度学习会让我们走得更远。

大多数深度学习应用程序都只擅长于某项特定的任务（称为“狭义人工智能”），但我们所追求的智能是类似（或超过）人类水平的智能（通常称为“通用人工智能”或AGI）。Gwern Branwen 的“扩展假设”提供了一个令人信服的案例，LLM 可以学到超出设计目标的东西，即当我们给更大的模型输入更多的数据时，“将出现更复杂的行为”。

考虑到我们的思想以某种方式产生于大脑的神经活动，而人工神经网络（非常非常松散）是模拟这种神经活动，所以有理由认为，AGI 可能来自基于深度学习的狭隘人工智能模型的某种融合，其改进远远超出了它们目前的能力。

如果是这样的话，我们将面临一个工程迭代问题。就像工程师年复一年地改进劳斯莱斯涡轮机一样，我们可以愉快地继续优化神经网络架构，收集更多的数据，添加更多的参数，依靠未来的硬件创新。最终，我们将向着（或超越）AGI 前进。

这个领域有足够多的爱好者、研究机构、初创公司和跨国公司在开展优化深度学习应用程序的工作，我们最终会找到答案的，对吧？也许吧。但是，如果我们最终开始面临巨大的能源、硬件或质量数据限制呢？或者，如果 AGI 无法从人工神经网络中脱颖而出呢？

我们需要的可能不仅仅是深度学习

在过去几年里，基于深度学习的人工智能领域出现了许多重大突破，随之也出现了一些要保持谨慎的声音。不，这些经常被忽视的声音并不是卢德派分子，他们也不是人工智能末日的危言耸听者，他们是人工智能从业者和研究人员，他们的袖子上还沾着油脂，要求我们爬到林线之上，重新获取我们的方位，因为深度学习可能无法独自带领我们走完全程。

虽然很少有研究人员相信深度学习是唯一的答案，但我们正在把大部分芯片、资金、GPU/TPU、训练数据和博士学位都投入到深度学习上，如果结果证明我们只擅长狭义智能，那么我们只能算是开发了强化型自动化。

当然，强化型自动化也非常有用。我经常使用 Youtube 的自动字幕和翻译来观看土耳其剧。Youtube 从土耳其语到英语的翻译杂乱无章，甚至可笑。但是，结合视频片段，这种杂乱无章的翻译已经为我提供了足够的背景信息，让我可以欣赏这部剧。你可能遇到过，Siri 或 Alexa 有许多缺点。它们也有很多缺陷，经常让你发笑（或招你咒骂）。但由于它们可以可靠地完成事实、歌曲或天气预报等检索任务，所以我们发现它们足够有用，值得为其支付几百美元。

不过，如果自动字幕和翻译系统（以及 LLM）能够理解语言间的各种差别，而不仅仅是某些词与其他词共现的可能——就像联合国口译员在核扩散条约谈判期间所做的那样，这样会更好。或者，虚拟助手可以发挥其卓越的数据处理能力，像人类一样推理，这样它们就可以增强我们的决策能力。对于这类应用程序，我们需要向 AGI 靠拢。有些研究人员认为，如果我们不充分探索深度学习方法之外的方法，那么我们可能就会远离 AGI。

怎样能让人工智能变得更聪明？

到目前为止，我们都是假设，大多数人工智能应用程序都要走很长的路，才能到达连续体“更智能”的一端，而且我们也考虑过，仅靠深度学习可能无法带领我们到达目的地。现在，该玩点好玩的了。让我们来场头脑风暴，探索一些让人工智能更智能的基本原则。

首先，人工智能不应该是只会一招的小马，它应该是多才多艺的。这看起来像是依赖于应用程序，但数字助手提供了一个很好的例子，因为它们可以处理语言和检索知识；一个帮助检测癌变皮肤痣的模型，因为只擅长一项任务，所以应用并不广泛。与之相关联的，AI 也应该是多模态的。这样，多个感知模态的性能之和大于性能最大的单感知模态。配备了计算机视觉和超声波传感器的自动驾驶汽车应该比最高性能的视觉或超声波传感器表现更好。多模态和让人工智能更加多面化都是活跃的研究领域。

其次，人工智能模型应该在训练数据之外进行泛化，将知识从熟悉的领域转移到不熟悉的领域。例如，假设有一位动物学家发现了一种未知物种。她会把它和她目前了解的类似物种的外观和行为进行比较，对这种新生物进行概括和判断，将其归入适当的类别（哺乳动物、爬行动物、鱼类等）。如果新物种与训练数据相差太大，那么深度学习模型在执行同一任务时就容易出现问题。

但斯坦福大学兼职教授、Matroid 首席执行官 Reza Zadeh 认为，最新的生成式人工智能进展在这方面颇有潜力。例如，一个图像分类模型如果没有标签为“河马单板滑雪 U 型场地技巧”的照片，那么它可能会针对该标签自己生成图像，然后请求人类反馈模型生成的图像与这个奇怪的短语的匹配程度。这可以减少模型学习所需的训练数据量和时间。

也许，我们想要设计的最重要也是最困难的智能特征是人工智能圣杯——机器“常识”。因为我们认为，常识是理所当然的，是一个模糊的概念。Howard Shrobe 是美国国防高级研究计划局（DARPA）耗资 7000 万美元的“机器常识”项目的项目经理。他认为，常识有三个组成部分：

物理直觉：对物体在环境中如何移动的感知；
心理直觉：对其他主体如何互动和行为的感知；
通识：大多数成年人都具备的一套常识。

你可以毫不费力地判断台球的轨迹，把朋友皱起的眉头理解为担心，这分别要归功于物理直觉和心理直觉。考虑到我们在婴儿和蹒跚学步期就发展出了复杂的物理直觉和心理直觉——在我们接受诸多训练之前——似乎已经有许多东西进入了我们大脑的神经系统。

或许是由于他在发展心理学方面的研究，纽约大学名誉教授 Gary Marcus 一直在孜孜不倦地倡导，用人工智能的方法模拟（我们认为的）先天性在人类认知发展中所起的作用。他并不是唯一一个持这种观点的人；DARPA 的“机器常识”项目同样旨在让机器模拟六个月大的婴儿的学习过程。甚至计算先驱 Alan Turing 也认为，模拟儿童的思维比模拟成人的思维更可取。

混合策略能助我们实现目标吗？

早期的人工智能主要是使用符号系统将逻辑硬编码到系统中（也称为符号人工智能）非常脆弱，以至于大多数研究人员多年前就把它撂在一边了。然而，Marcus 认为，混合方法——融合符号人工智能和深度神经网络可以帮助人工智能结合两个领域的优点。罗切斯特大学名誉教授 Henry Kautz 认为，这种混合方法（也被称为神经符号）可以利用 Daniel Kahneman 提出的系统 1 和系统 2 思维的概念。

人工深度神经网络大致对应于人类快速、直观、通常是感官的思维（系统 1），而符号人工智能大致对应于人类速度较慢的系统性思维（系统 2）。例如，当你开车去上班时，你使用系统 1 思维；你几乎处于自动驾驶状态。但假如你和你最好的朋友一起开车旅行，一起讨论生活的意义。这并不完全是一个自动驾驶的场景（除非你已经把一切都弄清楚了），所以你会使用系统 2 思维。

虽然符号 AI 逐渐消失，但符号无疑是理解和传递概念的有效途径。我们每次说话、阅读和写作都在使用它们，所以人工智能应该利用好符号。类似符号的特征有时会出现在深度学习方法中；例如，卷积神经网络（CNN）可以识别图像的轮廓等特征。遗憾的是，目前大多数深度学习方法都没有充分利用符号的力量。符号方法也是如此；人类不断地将原始的感官输入——视觉、听觉、嗅觉、味觉、触觉和情感——映射到我们的符号中，所以我们应该像深度学习那样为符号方法的符号注入感知意义。

Marcus 呼吁加大对神经符号人工智能的投入，这似乎值得一试，但是否已经有任何概念证明？虽然不像纯深度学习的成就那样广为人知，但神经符号方法并没有置身事外。首先，Marcus 认为，AlphaGo 将深度学习与符号树搜索相融合，形成了一种神经符号学方法。此外，2018 年，Ellis 等人开发了一种神经符号模型，使用 CNN 将手绘图像转换为虽有缺陷但人类可读的计算机图形程序。虽然人类必须验证这些程序的正确性，但看到 CNN 生成比图像轮廓更复杂的人类可解释的符号系统还是很令人兴奋的。最后，2020 年，Cranmer 等人开发了一种技术，利用图神经网络从数据中自动提取符号表达式，发现了一个预测暗物质浓度的新公式。的确，神经符号方法似乎有着巨大的潜力。

未来展望

现在我们已经了解为什么人工智能仍然达不到我们直观的智能感——尽管它取得了许多成功。深度学习肯定会继续产生更多新颖实用的应用，但它不太可能成为我们迈向 AGI 的唯一方法。考虑到智能的多面性，组合使用多种方法似乎比完全依托深度学习更合适。其他方法究竟是什么还有待观察。

神经符号学方法——结合人工神经网络和符号来模拟我们的“快”和“慢”思维——似乎很有前途；但那也可能是一条死胡同。考虑到人工智能还很年轻，我们需要做的主要事情是防止轻率地抛弃方法，把人工智能作为一个探索性的寻路阶段，用各种各样的方法进行实验。

原文链接：https://blog.deepgram.com/ai-still-feels-artificial-what-are-we-missing/

创作场景

ChatGPT 等 AI 很强大，但为什么还会给人“人工”的感觉？

向着 AGI 前进

我们需要的可能不仅仅是深度学习

怎样能让人工智能变得更聪明？

混合策略能助我们实现目标吗？

未来展望