ChatGPT居然攻破了图灵测试，基准测试也不靠谱了？

大语言模型拥有出色的人类语言模拟能力，但科学家们对其推理表现仍存在分歧。

7 月 25 日，《Nature》在一篇文章中称，ChatGPT 已经攻破了图灵测试，是时候要启用其他新的方法来评估人工智能技术了。

世界上最强的人工智能（AI）系统能够通过严格的考试、写出令人信服的论文、顺畅参与聊天，甚至很多人已经无法分辨 AI 与人在语言表达上有何分别。还有什么是它们做不到的吗？当然有，而且是些非常简单的问题。

屏幕上排列着一系列色彩鲜艳的图形，面对这类视觉逻辑测试，大多数人都能快速找出答案。但作为聊天机器人 ChatGPT 和搜索引擎 Bing 背后的技术之光、当前 AI 的最高杰作，GPT-4 却明显力不从心。今年 5 月的一项研究显示，GPT-4 在其中一类模式测试中的正确率只有三分之一，而在另一类测试中正确率更是可怜的 3%。

逻辑谜题背后的研究团队，希望测试能给 AI 系统提供更好的基准，帮助解决关于 GPT-4 等大语言模型的固有短板。总结来讲：在语言类测试中，大语言模型轻易就完成了曾经被视为具有里程碑意义的智能壮举；但在视觉逻辑测试中，它们的表现则相当孱弱、存在明显的盲点，无法根据抽象概念做出推理。

新墨西哥州圣达菲研究所的计算机科学家 Melanie Mitchell 表示，“AI 领域的从业者们正努力解决对大语言模型系统的评估难题。”为此，她的团队整理出了这套逻辑问题集。

过去两、三年里，大语言模型已经在跨多任务能力上全面碾压以往的 AI 系统。它们的工作原理并不复杂：根据训练时接触过的数十亿在线句子，总结出各单词之间的统计相关性，而后面对给定的输入文本生成合理的下一单词。对于基于大语言模型构建的聊天机器人，则额外再添加一个元素：由人类训练师提供广泛反馈，因此微调机器人的响应方式。

值得注意的是，在这类海量人类语言库上训练而成的、类似于自动补全性质的算法，成功表现出了广泛的问题解决能力。虽然原有 AI 系统也许在特定某项任务上能够击败大语言模型，但前者必须接受与特定问题相关的数量训练，且这种能力无法快速从一项任务转移至其他任务。

哈佛大学认知科学家 Tomer Ullman 表示，从广义上讲，这两大阵营的研究人员对于大语言模型的底层实现原理抱有完全相反的观点。有些人将算法的成就归结于真正的推理或理解能力，但其他人（包括 Ullman 本人和前文中的 Mitchell 等研究人员）则仍持谨慎态度。

Ullamn 认为，“这场辩论的双方都才华横溢、水平很高。”产生分歧的根本原因，在于缺乏确凿的证据来支持其各自观点。“毕竟还没有盖革计数器那样稳定可靠的智能检测器，能明确给出有智能或者无智能的答案。”

讨论双方的研究人员表示，依靠逻辑问题等测试提示人类与 AI 系统间的能力差异，应该是向正确方向迈出的重要一步。纽约大学认知计算科学家 Brenden Lake 表示，此类基准测试还有助于揭示当今机器学习系统所缺失的能力，同时厘清人类智能到底由哪些要素组成。

另外，这种对大语言模型及基准能力研究的测试，还具有其他现实意义。Mitchell 指出，如果想把大语言模型应用到医学、法律等现实场景当中，首先必须明确其能力边界在哪里。“我们得搞清楚它能做什么、做不了什么，之后才能判断如何安全加以运用。”

图灵测试已经过时了吗？

在机器智能测试领域，最著名的方案一直是图灵测试。该测试由英国数学家兼计算机先驱阿兰·图灵于 1950 年提出，当时的计算机尚处于起步阶段。图灵提出了一种所谓“模仿游戏”的评估方法，在该场景中，人类裁判分别与隐藏在屏幕之后的计算机和人类进行简短的文本对话，看其能否据此准确识别出机器和人。图灵认为，这应该能回答“机器有没有思考能力”的问题。

Mitchell 指出，图灵并没有详细说明该场景的大量细节，因此缺乏确切规则可供遵循。来自谷歌的软件工程师 François Chollet 认为，“图灵测试并不是能在机器上实际运行的具体测试——而更多只是种思想实验。”

但这种用语言来检测机器是否具备思考能力的观点，已经在技术领域根深蒂固。几十年来，商人兼慈善家 Hugh Loebner 长期资助一年一度的图灵测试活动，也就是“Loebner 奖”。但计算机科学家 Rob Wortham 表示，这项活动在 2019 年之后就停止了，因为随着 Loebner 本人过世、活动经费也无以为继。Wortham 是英国人工智能与行为模拟研究学会的联席主任，该学会自 2014 年开始就代表 Loebner 主办这场竞赛。他解释道，大语言模型现在基本具备了骗过人类的能力，所以 Loebner 奖在大语言模型全面起飞前夕被迫停办颇有种黑色幽默的意味。

其他研究人员也认为，GPT-4 等大语言模型已经基本具备了通过图灵测试的能力。至少在简短的对话中，多数人恐怕很难分辨谁是人、谁是大模型。今年 5 月，以色列特拉维夫 AI21 实验室的研究人员报告称，有超过 150 万人参与过基于图灵测试的在线游戏。用户将参与到两分钟的聊天当中，面对的要么是另一位用户、要么是根据研究人员提示伪装成真人的大语言模型。玩家正确识别出机器人的概率只有 60%，已经跟完全乱猜差不多了。

但比较熟悉大语言模型的研究者还是能从种种细节中分辨出聊天机器人。Chollet 指出，他发现只要利用系统的已知弱点，就能轻松检测出谁是大语言模型。“如果让我自己接受测试，判断到底是不是在跟大语言模型聊天，那我肯定能得出正确答案。”

而其中的关键，就是让大语言模型走出自己的舒适区。他的诀窍就是向大语言模型提出与常见训练场景不同的差异化场景。在多数情况下，大语言模型都是在根据训练数据输出可能性最高的单词，而并非真的按照新场景给出正确答案。

而且，Chollet 等人对于这种基于欺骗性能的测试方法持怀疑态度。“这明显就是为了欺骗人类裁判而存在”，这样的测试只会鼓励开发者向 AI 灌输更多伪装技巧，并不能激发出更多有用或者有趣的功能。

基准测试也不靠谱

研究人员经常会用评估特定能力（例如语言能力、常识推理和数学能力）的基准测试对 AI 系统做出评估，各技术团队也越来越多采用那些专为人类设计的学术和专业考试。

今年 3 月 GPT-4 刚刚发布时，来自加州旧金山的 OpenAI 公司就在一系列专为机器设计的基准测试上评估了新模型的性能，内容包括阅读理解、数学和编码。据 OpenAI 报告，GPT-4 在大多数测试中表现出色。他们还为 GPT-4 设置了约 30 项考试，包括：面向美国高中生的各科考试，即先修课程（Advanced Placement）；评估美国医生临床知识的考试；以及美国研究生选拔过程中使用的标准测试（GRE）。在统一律师考试（美国有多个州在律师资格考试中包含此项考试）中，GPT-4 的得分成功跻身前 10%。

AI 系统性能——结果摘录

资料来源: OpenAI/参考文献 4

*这里的排名百分位，为达到该分数的人类考生在全体受试者中的所在位置。

Mitchell 承认，“不少语言模型在这些基准测试中都表现良好。但多数情况下，这并不足以证明它们在一般能力上超越了人类，而是基准本身存在局限。”研究人员提出了有力的质疑，即因为模型接受了大量文本素材的训练，所以很可能已经在训练数据中见过类似的问题。这种情况下得出的基准测试结论被称为“污染”，显然不足以采信。

OpenAI 公司表示，他们通过在问题和训练数据中查找相似字符串的方式查验过这一点。在删除相似字符串之前和之后对大语言模型做测试，其性能几乎没有变化。这表明极高的得分跟污染无关，但仍有部分研究人员质疑测试是否足够严格。

Sam Bowman 是纽约大学的语言技术科学家，同时也在旧金山 AI 公司 Anthropic 工作。他警告称，千万不要简单把 GPT-4 的考试成绩视为“见过类似问题”的结果，进而否定 GPT-4 的能力。在他看来，“污染的说法确实让情况变得有点复杂，但我认为这并没有真正影响大局。”

研究人员还指出，大语言模型拿下考试高分的能力本身也比较脆弱，恐怕无法被转化成在现实世界中做出正确判断的能力。Mitchell 认为，只要稍微调整一下考试题目，就有可能导致大模型无法通过。例如，她从 ChatGPT 通过的工商管理硕士考试中选出一个问题并稍加改动，人类可以轻松根据变化调整答案，但 ChatGPT 却惨遭失败。

在解读基准测试含义时，还有另一个更深层次的问题。对人类来说，在这些考试里拿下高分一般都代表其具备较强的智力水平——其实智力水平本身也是个模糊概念，主要反映在一系列任务中表现出的能适应不同环境的能力。换言之，在考试中拿高分证明此人拥有较好的认知能力，而且出色掌握了某些抽象概念。但对大语言模型来说，情况则并非如此。Mitchell 强调，大模型的判断方式跟人类非常不同，“在多数情况下，AI 系统并不是在以人类熟悉的方式做推理。”

这可能是因为大语言模型只能从语言当中学习经验；由于缺少与现实世界连接的通道，它们无法像人那样体验语言跟物体、属性和情感之间的联系。Lake 指出，“很明显，它们理解单词的方式跟人类不一样。”在他看来，目前的证据表明大语言模型“可以在不真正理解自己在说什么的情况下，非常流利地使用语言。”

另一方面，大语言模型也表现出一些人类所不具备的能力，例如理解人类写下的几乎每个单词之间的联系。Mitchell 表示，这可能代表模型是在依靠语言或者其他指标的某些特征来解决问题，而用不着掌握更广泛的推理能力。

OpenAI 公司研究员 Nick Ryder 也认同这一判断，表示 AI 在单一测试中的性能表现并不足以像证明人类受试者那样证明其普遍能力。“我觉得大家不该把人类得分跟大语言模型的得分做直接比较”，OpenAI 公布的得分“并不是在描述大语言模型具备类人能力或者类人推理水平，而单纯是展示这些模型在执行这些任务时的表现。”

在传统机器基准测试和人类专业考试之外，研究人员还对大语言模型做出更广泛的探讨。今年 3 月，微软研究院的 Sébastien Bubeck 及其同事就放出了题为《通用人工智能的火花：GPT-4 早期实验》的预发表版本，在行业内引起热议。他们使用 GPT-4 的早期版本记录下一系列令人惊讶的功能，而且其中很多功能与语言并没有直接或明确的联系。其中一个值得注意的亮点，就是它能通过用于评估心理学理论的测试。心理学理论是人类的一种核心能力，用于预测和推理他人的心理状态。他们在文章中写道，“鉴于 GPT-4 在功能上的广度和深度，我们有理由相信它已经代表着通用人工智能（AGI）系统的早期（但尚不完美）版本。”

但 Bubeck 本人随后也做了澄清，强调“GPT-4 肯定不会像人那样思考，而且对于展现出的任何功能，它都有着自己独特的、与人类不同的实现方式。”

Mitchell 认为，尽管这份报告表述得相当激进，但却并没有对大语言模型的能力做出系统性探讨。“这更像种人类学研究。”Ullman 也表示要想证明机器能掌握心理学理论，至少要给出与之对应的潜在认知过程证据，而不能简单依据机器输出了跟人类相同的答案就粗暴断言。

AI 研究人员们认为，要想摸清大语言模型的优势和短板，还需要展开更广泛、更严格的审查。而色彩逻辑问题可能正是其中的重要一环。

新鲜谜题

2019 年，就在大语言模型全面爆发之前，Chollet 在网上发布了专门为 AI 系统整理的一套新型逻辑测试集，名为抽象与推理语料库（ARC）。解答者将面对一段视觉演示，其中几个正方形网格会转变成另外一种模式，再由其指示下一网格该如何变化来证明自己已经理解了变化规则。Chollet 表示，“这测试的是我们适应以往从未见过的事物的能力”，他认为这种探寻规律的能力才是智能的本质。

Lake 认为，ARC 把握住了“人类智能的标志”：从日常知识中进行抽象，并将其应用于以往从未见过的问题。

Chollet 在 2020 年组织了一场 ARC 机器人竞赛，当时大语言模型还没有获得广泛关注。最终获胜的 AI 系统经过了专门训练，善于解决 ARC 这类任务。但跟大语言模型不同，它并不具备通用功能，而且也只答对了 21%的问题。相比之下，人类正确解决 ARC 问题的比例为 80%7。多个研究团队目前正使用 ARC 来测试大语言模型的能力，也没有任何一种能接近人类的表现。

Mitchell 和她的同事在 ARC 的启发下又开发出一套新的谜题（称为 ConceptARC），主要区别有两点。ConceptARC 的难度更低：Mitchell 团队希望让基准测试反映出机器功能的进步，哪怕只是一点点改进。第二是，该团队选择了特定概念来做测试，之后围绕每个概念创建一系列与主题相关的谜题变体。

例如，为了测试相同性这个概念，一道题要求解题者将具有相同形状的对象保持不动，另一道题则要求将同形状对象沿一条轴对齐。这样做的目的，是减少 AI 系统在未掌握概念的情况下通过测试的几率。

性能不佳代表着什么？

研究人员将 ConceptARC 任务发布给了 GPT-4 和招募来的 400 名受试人员。人类在所有概念组上的平均得分为 91%（得分最高的一组为 97%）；GPT-4 得分最高的一组为 33%，在其余概念组中的得分均不超过 30%。

Mitchell 指出，“我们证明了机器仍然达不到人类的智力水平。但令人惊讶的是，尽管从未接受过相关问题的训练，但它还是能够解决其中一些问题。”

该团队还测试了在 Chollet 竞赛中胜出的机器人，这些机器人并不属于大语言模型那种通用能力系统，而是专门针对 ARC 等视觉问题训练而成。总体而言，它们的性能比 GPT-4 更好，但还是不如人类，其中最佳概念组得分为 77%，但在大多数概念组中得分低于 60%1。

不过 Bowman 认为，GPT-4 通不过 ConceptARC 的训练，并不证明它缺乏潜在的抽象推理能力。在他看来，ConceptARC 与 GPT-4 之间存在偏差，毕竟这是一种视觉测试。“即使这些模型真的很擅长这种概念推理，也不大可能在初次参与此类测试时就拿下高分。”

测试方式的限制，也可能是 GPT-4 表现不佳的影响因素。大语言模型的公开版本只能接受文本输入，因此研究人员提交了用于描述图像的数字数组。（例如，空白像素可能用 0 表示，彩色广场则可能用相应的数字表示。）相比之下，人类受试者能够直接看到图像。Mitchell 也承认，“我们是在拿纯语言系统跟人类做比较，而人类拥有高度发达的视觉系统，所以这样的比较恐怕并不完全公平。”

OpenAI 已经建立了 GPT-4 的“多模态”版本，能够直接接受图像输入。Mitchell 团队正在等待该技术的正式公开，这样就能再做一轮 ConceptARC。但她认为多模态 GPT-4 的成绩也好不了多少，“我觉得这些系统仍然不具备能与人类比肩的抽象概念和推理能力。”

麻省理工学院的计算认知科学家 Sam Acquaviva 也赞同这一判断，“否则就太让人震惊了。”他还提到，另一组研究人员已经在 1D-ARC 基准上测试了 GPT-4，且模式限制为单行而非网格 8。这应该能消除一定的不公平问题，但 Acquaviva 看到虽然 GPT-4 的性能有所提高，但同样不足以证明大语言模型具备可靠的规则理解和推理能力。

推理论证

Bowman 还提到其他一些实验，综合结果来看，大语言模型至少已经掌握了推理抽象概念的基本能力。在其中一个案例中，哈佛大学计算机科学家 Kenneth Li 和他的同事采用了黑白棋的数字版本，由对弈双方将黑色和白色棋子放进 8 x 8 的网格当中。他们希望借此评估大语言模型到底是依赖记住的语言统计关系来生成文本，还是真的能像人类一样为现象构建内部表征。

在向大语言模型提交人类选手的操作训练集之后，AI 很快就掌握了为下一步棋选择正确策略的能力。研究人员认为，这表明大语言模型甚至能够理解棋盘上的态势，并结合当前特征给出棋步建议，这明显突破了文本形式的束缚。

Bowman 承认，大语言模型的推理能力总体上可谓是“参差不齐”，而且达不到人类推理的高度。但他认为这种推理能力确实存在，而且似乎会随着模型规模的增长而提升。也就是说，未来的大语言模型会表现得越来越好。“这些系统没有我们期待中那么可靠或者通用，而且在某些特定的抽象推理方面完全搞不清状况。但我认为，它们的基本推理能力确实客观存在。”

Bowman 和 Mitchell 等研究人员还一致认为，如何更好地测试大语言模型抽象推理及其他智能指标的方法，仍然是个悬而未决的问题。斯坦福大学认知科学家 Michael Frank 认为不可能存在单一某种包罗万象的测试能够全面取代图灵测试。相反，他认为研究人员需要设计大量测试来量化各类系统的优势和短板。“这些智能体都很棒，只是在诸多方面仍有缺陷，所以最重要的就是对此开展系统性探索。”

Wortham 则向刚刚接触 AI 系统的朋友们提出建议，希望尽量远离那种对拟人化的执念。“我们总想把任何表现出智能的东西理解成人，这真的很没必要。”

“这甚至可说是种诅咒，意味着除了人类自己，我们无法想象其他表现出明确目标导向的智能形式。我们总是一厢情愿地认为，它这么做的深层思维方式跟自己一样。”

参考文献：

Moskvichev, A., Odouard, V. V. & Mitchell, M. Preprint at https://arxiv.org/abs/2305.07141 (2023).
Turing, A. M. Mind LIX, 433–460 (1950).
Article Google Scholar
Jannai, D., Meron, A., Lenz, B., Levine, Y. & Shoham, Y. Preprint at https://arxiv.org/abs/2305.20010 (2023).
OpenAI. Preprint at https://arxiv.org/abs/2303.08774 (2023).
Bubeck, S. et al. Preprint at https://arxiv.org/abs/2303.12712 (2023).
Chollet, F. Preprint at https://arxiv.org/abs/1911.01547 (2019).
Johnson, A., Vong, W. K., Lake, B. M. & Gureckis, T. M. Preprint at https://arxiv.org/abs/2103.05823 (2021).
Xu, Y., Li, W., Vaezipoor, P., Sanner. S. & Khalil, E. B. Preprint at https://arxiv.org/abs/2305.18354 (2023).
Li, K. et al. Proc. Eleventh Int. Conf. Learn. Represent. https://openreview.net/forum?id=DeG07_TcZvT (2023).

原文链接：

https://www.nature.com/articles/d41586-023-02361-7

创作场景