报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

观点博弈:我们还应该期待 AGI 吗?

  • 2025-02-21
    北京
  • 本文字数:9283 字

    阅读完需:约 30 分钟

大小:4.48M时长:26:04
观点博弈:我们还应该期待AGI吗?

如果我们能够继续扩大大型语言模型(LLMs++)的规模(并因此获得更好、更通用的性能),那么有理由期待到 2040 年(或更早)出现强大的人工智能(AI),它能够实现大多数认知劳动的自动化,并加速进一步的 AI 进展。然而,如果规模扩大定律不起作用,那么通往 AGI 的道路似乎会更长、更难走,原因我在文章中有解释。

 

为了深入思考关于规模化正反两方面的论据,我虚构了两个角色——坚信者和质疑者,基于他们之间的辩论写了这篇文章。

我们会耗尽数据吗?

 

质疑者:

 

即使严肃对待那些唾手可得的规模化扩展曲线,也意味着我们需要1e35次浮点运算(FLOPs)来构建一个足够可靠且智能的 AI,以撰写一篇科学论文(这是 AI 需要具备的能力的基本要求,以便在规模化变得不可行之后,自动推进进一步的 AI 研究还能继续前进)【1】。这意味着我们需要的数据需比我们现在拥有的要多 5 个数量级(orders of magnitude,OOM)【2】。

 

我担心的是,当人们听到“差了 5 个数量级”时,他们的理解是,“哦,我们的数据量只比我们需要的少了 5 倍——我们只需要在数据效率上取得几次 2 倍的提升,我们就成功了”。毕竟,朋友之间差几个数量级算什么呢?

 

不,差了 5 个数量级意味着我们的数据量比我们需要的少了 10 万倍。的确,我们会得到数据效率更高的算法。多模态训练将会为我们提供更多的数据,此外,我们可以在多个周期中回收令牌(token)并使用课程学习。但是,即使我们假设这些技术可能会带来最慷慨的一次性改进,它们也不会为我们提供指数级的数据增长,以跟上这些扩展法则(Scaling Laws)所要求的计算能力指数级增长。

 


然后人们说,我们会以某种方式让自我对弈/合成数据(self-play/synthetic data)发挥作用。 但自我对弈存在两个非常棘手的挑战:

 

  • 评估:自我对弈在 AlphaGo 中很有效,因为该模型可以根据具体的获胜条件来判断自己(“我赢了这局围棋吗?”)。但新颖的推理并不具备具体的获胜条件。因此,正如你所预料的那样,大型语言模型(LLMs)到今天还无法纠正自己的推理错误

  • 计算:所有这些数学/编码方法都倾向于使用各种类型的树搜索,即你需要在每个节点上反复运行 LLM。对于围棋获胜这个相对有限的任务来说,AlphaGo 所需的计算预算是惊人的——现在想象一下,你需要在所有可能的人类思维空间中搜索,而不是在围棋的走法空间中搜索。为了让自我对弈工作所需的所有额外计算,加上已经需要用来扩展参数本身的惊人计算增加(计算量 = 参数 * 数据)。使用人类思维水平的 1e35 次浮点运算来估计,我们需要在目前最大的模型基础上增加 9 个数量级(OOMs)的计算量。当然,你可以从更好的硬件和更好的算法中获得改进,但你真的能得到完全等同于 9 个数量级的改善吗?

 

坚信者:

 

如果你对规模效应起作用的主要反对意见仅仅是数据的缺乏,你的直觉反应不应该是,“看起来我们本可以通过扩大 Transformer++的规模来创造出 AGI,但我猜我们会先耗尽数据。”

 

你的反应应该是,“天哪,如果互联网更大,只需用几百行Python代码就能编写出一个基本结构的模型,通过扩大规模居然能够创造出一个具有人类水平智能的思维。这是世界上的一个疯狂事实,即让大量的计算变得智能竟然如此容易。”

 

LLM“效率低下”的例子大多只是一些无关紧要的电子商务垃圾内容【3】。我们通过在下一个 token 预测上训练它们来加剧这种无能——这种损失函数与我们希望智能代理在经济中完成的实际任务几乎无关。尽管我们实际想要的能力与我们训练这些模型所用的糟糕损失函数和数据之间的交集微乎其微,但我们只要把微软年收入00.03%投入对互联网的大规模抓取中,就可以产生一个婴儿级的通用人工智能(baby-AGI),也就是所谓的 GPT-4。

 

因此,考虑到目前为止 AI 的进展都是这么简单易行,如果合成数据也能发挥作用,我们也不应该感到惊讶了。毕竟,“模型只是想要学习”。

 

GPT-4 已经发布 8 个月了。其他人工智能实验室也只是刚刚得到了他们自己的 GPT-4 级模型。这意味着所有的研究人员现在才开始尝试让自我对弈与当前代的模型一起工作(看起来他们中的一个可能已经成功了)。因此,到目前为止,我们还没有公开证据表明合成数据能够在大规模上发挥作用,但这并不意味着它不能成功。

 

毕竟,当你的基础模型足够强大,至少有时候能够得出正确答案时,强化学习(RL)就会变得更加可行(现在你可以奖励模型在完成一连串的思考过程所需的 1/100 次,例如进行一次扩展的数学证明,或编写完成一个完整拉取请求(pull request)所需的 500 行代码)。很快你的 1/100 成功率就会变成 10/100,然后是 90/100。现在你尝试 1000 行代码的拉取请求,模型不仅有时会成功,而且它还能在失败时进行自我批评。依此类推......。

 

事实上,这种合成数据的自举(bootstrapping)过程似乎与人类进化几乎直接类似。我们的灵长类祖先几乎没有证据表明他们能够快速辨别和应用新的洞察力。 但是,一旦人类发展出了语言,就有了这种类似于 LLM 的合成数据/自我对弈循环的基因/文化共同进化过程,在这种循环中,模型变得更加智能,以便更好地理解相似副本的复杂符号输出。

 

自我对弈并不要求模型能够完美地判断自己的推理过程。它们只需在评估推理时比从零开始做推理要好即可,这显然已经是事实了——比如看看宪法人工智能(Constitutional AI),或者仅仅与 GPT 交互几分钟,你就能注意到它似乎更擅长解释为什么你写的是错误的,而不是自己独立得出正确的答案)【4】。

 

几乎所有与我交谈过的大型人工智能实验室的研究人员都非常有信心,他们都非常确信他们能够让自我对弈发挥作用。当我问他们为什么这么确定时,他们停顿了一下,好像急于解释自己的所有想法。但随后他们想起了保密的重要,于是说:“我不能告诉你具体的细节,但就我们可以在这里尝试的东西而言,有很多唾手可得的成果。”或者,正如Dario Amodei(Anthropic首席执行官)在播客中告诉我的那样

 

Dwarkesh Patel:你提到数据可能不是约束条件。你为什么会这样认为?

 

Dario Amodei :这里有多种可能性,出于某些原因,我不能深入讨论细节,但是世界上有很多数据源,并且生成数据的方法也有很多。 我猜这不会是一个障碍。也许如果它是一个障碍会更好,但它不会成为障碍。

 

质疑者:

 

宪法人工智能(Constitutional AI)、强化学习人类反馈(RLHF)以及其他强化学习/自我对弈(RL/self-play)设置擅长发挥潜在能力(或在能力不佳时加以抑制)。但是目前还没有人能证明有一种方法可以通过强化学习(RL)来实际提高模型的底层能力。

 

如果某种自我对弈/合成数据的方法行不通,你就彻底完蛋了——没有其他方法可以绕过数据瓶颈。新的架构极不可能提供解决方案。您需要一个比 LSTM 到 Transformer 时代更大的样本效率提升。LSTM 早在 90 年代就被发明出来了。因此,你需要的飞跃比我们在过去 20 多年里所经历的要大的多,当时深度学习中所有唾手可得的成果都是最容易实现的。

 

你从那些对 LLM 规模化持有情感或经济利益的人那里得到的共鸣,并不能取代我们目前完全缺乏证据的现状,即证明强化学习(RL)能够解决数据上存在的多个数量级(OOM)短缺的问题。

 

此外,LLM 似乎需要如此惊人的大量数据才能得出如此平庸的推理能力,这一事实表明它们根本没有实现泛化。如果这些模型不能用人类在 2 万年内内能接触到的数据量接近人类水平的表现,我们应该考虑到即使是 20 亿年的数据量也可能是不够的。你不能通过给飞机加更多的喷气燃料使其到达月球。

 

到目前为止,扩大规模真的有效吗?

 

坚信者:

 

在性能基准测试上,性能已经持续提升了 8 个数量级。在计算量增加百万倍的情况下,模型性能的损失已经精确到小数点后许多位了。

 

在 GPT-4技术报告中,它们表示,它们能够“根据使用相同方法训练的模型,但使用的计算量最多比 GPT-4 少 1 万倍”来预测最终 GPT-4 模型的性能。

 


我们应该假设,在过去的 8 个数量级(OOM)中如此一贯有效的趋势,在接下来的 8 个数量级中也将是可靠的。通过进一步扩大 8 个数量级的规模获(或者考虑到从算法和硬件进步中获得的免费性能提升,相当于性能上的 8 个数量级扩大)所能达到的性能,可能会产生足以加速人工智能研究的模型。

 

质疑者:

 

但当然,我们实际上并不直接关心下一个词(token)预测的性能。在这个损失函数上,模型已经超越了人类。我们想弄清楚这些在下一个 token 预测上的规模扩展曲线,是否真的与通用性的真正进步相对应。

 

坚信者:

 

随着这些模型规模的扩大,它们在广泛的任务上的性能会得到持续且可靠地提升,这一点通过MMLUBIG-benchHumanEval等基准测试得到了衡量。

 




质疑者:

 

但是你真的尝试过随机查看一些 MMLU 和 BigBench 问题吗?它们几乎都只是谷歌搜索的首选命中结果。这些都是对记忆力的良好测试,而不是对智力的测试。以下是我从 MMLU 随机挑选的一些问题(记住,这些是多项选择题,模型只需从 4 个选项中选择正确的答案即可):

 

问: 根据贝尔的理论,评估一种行为在道德上是否被允许的第二步是找出

答:禁止它的道德规则是否是真正的道德规则。

 

问:对于自发过程,以下哪一项始终是正确的?

答:系统加上周围环境的总熵增加。

 

问:比尔·克林顿出生时,美国总统是谁?

答:哈里·杜鲁门

 

一个模型经过互联网文本的训练,充满了各种随机事实,它恰好记住了许多随机事实,这有什么值得称赞的吗?为什么这能在某种程度上表明了智力或创造力?

 

即便是在这些人为设计且相互独立的基准测试上,性能似乎也已经达到了平台期。据估计,谷歌新推出的Gemini Ultra 模型的计算量比 GPT-4 多处了近 5 倍。但在 MMLU、BIG-bench 和其他标准基准测试上,它的性能几乎与 GPT-4 相当。

 

在任何情况下,常用的基准根本不能衡量长期任务的表现(比如你能在一个月的时间内完成一项工作吗),在这方面,基于下一个词(token)预测训练的 LLM 几乎没有有效的数据点可供学习。事实上,正如我们在SWE-bench上看到的那样(这一测试衡量 LLM 是否能够自主完成拉取请求),它们在整合长期复杂信息方面表现得非常糟糕。GPT-4 的得分仅为 1.7%,而 Claude 2 的得分稍高一些,为 4.8%。

 

我们似乎有两种类型的基准测试:

 

  • 一种是测量记忆、回忆和插值的模型(MMLUBIG-benchHumanEval),这些模型似乎已经达到甚至超过了普通人的水平。这些测试显然不能很好地代表智力,因为即使是规模极大主义者也不得不承认,目前模型比人类笨得多。

  • 另一种是能真正衡量自主解决长时间跨度或困难抽象问题能力的模型(SWE-benchARC),这些模式甚至还没有开始运行。

 

当一个模型在经过了相当于 2 万年人类输入量的训练后,仍然不明白如果 Tom Cruise 的母亲是 Mary Lee Pfeiffer,那么 Mary Lee Pfeiffer 的儿子就是 Tom Cruise?或者其答案极其依赖于问题的提问方式顺序?对于这个模型,我们应该如何评价呢?

 

因此,我们现在甚至不值得去问规模扩大是否会继续有效——我们甚至似乎没有证据表明到目前为止规模扩大是有效的。

 

坚信者:

 

Gemini 似乎是一个奇怪的地方,让人预期会有一个高原期。GPT-4 显然突破了质疑者对联结主义和深度学习的所有预注册批评【5】。对 Gemini 与 GPT-4 性能的更合理解释仅仅是谷歌还没有完全赶上 OpenAI 的算法进展。

 

如果深度学习和 LLM 存在一些基本的硬性上限,那么我们难道不应该在它们开始发展常识、早期推理和跨抽象思考的能力之前就看到这一点吗?有什么直观的理由预期在一般推理和高级推理之间存在一些顽固的限制呢?

 

考虑一下 GPT-4 比 GPT-3 好了多少。这只是放大了 100 倍的规模。这听起来好像有很多,但当你考虑到这比我们可以在这些模型上进行的额外规模扩大要小得多时,就不那么惊人了。在我们触及到世界 GDP 的 1%之前,我们负担得起 GPT-4 进一步扩大 10000 倍的规模(即 GPT-6 水平)。而且这还是在我们没有考虑预训练计算效率提升(Mixture-of-Experts、Flash Attention)、新的训练后置方法(RLAI、思维链微调、自我对弈等)以及硬件改进之前。其中每因素都将单独为性能贡献与多个数量级的原始规模扩大所能达到的一样多效果(它们过去一直这样做)。将所有这些因素加在一起,你可能可以将 GDP 的 1%转化成 GPT-8 水平的模型。

 

对于社会愿意在新的通用技术上投资多少的背景来说:

 

  • 英国铁路投资在 1847 年达到顶峰时,占 GDP 的比例达到了惊人的 7%。

  • “在 1996 年电信法(Telecommunications Act)生效后的五年里,电信公司在铺设光纤电缆、增加新交换机和建设无线网络方面投资了 5000 多亿美元(按今天的价值计算,几乎接近一万亿美元)。”

 

有可能 GPT-8(也就是一个性能放大了 1 亿倍的 GPT-4 模型)只会比 GPT-4 稍微好一点,但我不明白为什么你会期待这种情况,因为我们已经看到模型能够通过更小的规模来理解如何思考以及世界是什么样子。

 

那接下来的故事你就知道了——数以百万计的 GPT-8 副本编码内核的改进,找到更好的超参,为微调提供大量高质量反馈等等。这使得开发 GPT-9 变得更便宜、更容易……把这个过程外推到奇点。

 

模型理解这个世界吗?

 

坚信者:

 

这是微软研究院在其Sparks of AGI论文中发现的众多令人震惊的发现之一。它们发现,GPT-4 可以编写 LaTex 代码来绘制一只独角兽。我们已经习惯了这样的事情,以至于我们不会停下来思考这些例子说明了什么问题。据推测,LaTex 中的动物图画并不是 GPT-4 训练语料库的一部分。然而,GPT-4 已经发展出了一个内在的表征,理解了独角兽的模样,并且能够利用其对 LaTex 编程的熟练技能来描绘它仅在语言形式中遇到的概念。我们看到 GPT-4 做了一些如果没有世界模型显然无法做到的事情(如果它不理解独角兽的样子,它怎么能弄清楚如何在 LaTex 中描绘一只独角兽呢)【6】。

 

为了预测下一个词(token),LLM 必须自学世界上所有的规律性,这些规律性能导致一个词拼接另一个词。为了预测《自私的基因》(Selfish Gene)一书中一段文字的下一段,需要理解以基因为中心的进化论观点,为了预测一部新短篇小说中的下一章节,需要理解人类角色的心理,等等。

 

如果你对LLM进行代码训练,它会在语言推理方面变得更好。现在,这确实是一个非常令人震惊的事实。这告诉我们,该模型已经从阅读大量代码中提取出了一些深层次的关于如何思考的通用理解能力——不仅表明语言和代码之间存在一些共享的逻辑结构,而且无监督的梯度下降可以提取这种结构,并利用它来更好地进行推理。

 

梯度下降试图找到最有效的数据压缩方法。最有效的压缩也是最深刻、最强大的。对物理教科书最有效的压缩——那种可以帮助你预测书中被截断的论证可能会如何继续的压缩——就是对底层科学解释的深刻内化理解。

 

质疑者:

 

智能涉及(除其他外)压缩的能力。但压缩本身并不代表智能。爱因斯坦之所以聪明,是因为他能提出相对论,但在我看来,爱因斯坦+相对论并不是一个更有意义的智能系统。说柏拉图与我+我的知识相比是个白痴没有意义,因为他没有我们现代人对生物学或物理学的理解。

 

因此,如果 LLM 只是由另一个过程(随机梯度下降)制作的压缩,那么我不知道为什么这会告诉我们有关 LLM 自身制作压缩的能力(因此,为什么这能告诉我们关于 LLM 的智能的任何信息)【7】。

 

坚信者:

 

为什么规模化必须持续发挥作用并不需要一个无懈可击的理论解释。我们对热力学的完整理解是在蒸汽机发明后的一个世纪才发展起来的。在技术发展的历史中,通常的模式是发明先于理论,我们应该预期智能也是如此。

 

并没有某条物理定律表明摩尔定律必须继续下去。事实上,总是有新的实际障碍暗示着摩尔定律的终结。然而,每隔几年,台积电(TSMC)、英特尔(Intel)、AMD 等公司的研究人员就会想出解决这些问题的办法,并为这一持续了数十年的趋势注入了额外的生命力。

 

你可以在计算和数据瓶颈、智能的真实本质和基准测试的脆弱性等问题上做尽心理上的思维体操。或者你可以直接看看那条该死的趋势线。

 


结论

 

别再扮演其他人格了。这是我的个人看法。

 

如果在过去的几年里你一直是一个规模化的坚信者,我们所见到的进步就会显得更加合理。你可以讲述一个故事,该故事是关于怎样用某种成语库或查找表来解释 GPT-4 惊人的表现可能永远不会泛化的。但这是一个没有任何怀疑者预注册过的故事。

 

举个例子,我要为质疑者提供的一个论据是,LLM 还没有建立起新的联系,这些联系能够导致新的发现。如果一个愚蠢的人能像 LLM 一样记住很多东西,他们就能做到这一点。老实说,我认为这是最令人信服的质疑点之一,其他许多人也有同样的看法。然而就在几天前,谷歌宣布其 FunSearch 设置有了新的数学发现【8】。如果你是一个质疑者,你很可能已经一次又一次的经历过这些了。

 

至于那些坚信者,像IlyaDarioGwern等人早在 12 年前或多或少地阐明了我们因规模化而导致的缓慢起飞。

 

看起来相当明显,一定程度的规模化可以让我们实现变革性的人工智能——也就是说,如果你在这些规模化曲线上实现了不可约减的损失,那么你就制造出了一种足够聪明的人工智能,可以自动化大多数认知劳动(包括制造更聪明的人工智能所需的劳动)。

 

但生活中的大多数事情实际上都比理论上要困难得多,而且许多理论上可行的事情也会因为这样或那样原因(核聚变、飞行汽车、纳米技术等)而变得难以解决。如果自我对弈/合成数据不起作用,模型看起来就麻烦了——你永远也无法接近柏拉图式的不可约减的损失。此外,预期规模化能继续发挥作用的理论依据尚不明确,而且规模化似乎能带来更好性能的基准的普遍性也存在争议。

 

我暂定的概率是 70%:规模化+算法进步+硬件进步,将使我们能在 2040 年实现人工通用智能(AGI)。30%:质疑者是对的——LLM 和任何大致类似的东西都完蛋了。

 

我可能错过了一些关键的证据——人工智能实验室根本没有发布那么多的研究成果,因为任何关于“人工智能科学”的见解都会泄露与构建 AGI 相关的想法。我的一个朋友是其中一个实验室的研究员,他告诉我,他很怀念大学时写一堆论文的习惯——如今,没有什么值得一读的文章发表了。出于这个原因,我认为我不知道的事情也会缩短我的预测时间。

 

附录

 

以下是一些额外的注意事项。我觉得我对这些主题的理解还不够充分,无法完全理解它们对规模化意味着什么。

 

模型会获得基于洞察力的学习吗?

 

在更大的规模上,模型将自然而然地发展出更高效的元学习方法——只有当你拥有一个大型的过参数化模型,并且超过了训练它在数据上严重过度拟合的点时,才会发生理解(grokking)现象。理解(grokking)似乎与我们的学习方式非常相似。我们有如何对新信息进行分类的直觉和心智模型。随着时间的推移及新的观察,这些心智模型本身也会发生变化。在如此多样化的数据上进行梯度下降将选择最通用和最能外推的电路。因此,我们得到了理解(grokking)——最终我们将获得基于洞察力的学习。

 

质疑者:

 

神经网络也拥有理解(grokking)能力,但它比人类实际整合新的解释性洞察的效率要低几个数量级。如果你告诉一个孩子太阳是太阳系的中心,这会立即改变他对夜空的理解。但你不能只把一本哥白尼的书输入到一个未经任何天文学训练的模型中,然后让它立即将这种洞察纳入到未来的所有相关输出中。奇怪的是,模型必须在如此多的不同上下文下中多次听到信息才能“理解”(grok)出潜在的概念。

 

不仅模型从未展示过洞察力学习,而且考虑到我们用梯度下降训练神经网络的方式,我不明白这种学习是如何成为可能的——我们对每个例子都进行了一系列非常微妙的微调,希望足够多的微调能慢慢地将它们推向正确的山顶。基于洞察力的学习需要立即从海平面拖拽到珠穆朗玛峰的顶峰。

 

灵长类动物的进化是否提供了规模化的证据?

 

支持者:

 

我敢肯定,你可以在黑猩猩的认知中发现各种令人尴尬的脆弱性,这些脆弱性远比逆转诅咒更可怕。这并不意味着灵长类动物的大脑存在一些无法通过增加 3 倍规模加上一些微调来修复的基本限制。

 

事实上,正如 Suzana Herculano Houzel 所展示的那样,人类大脑的神经元数量与和人类大脑质量相当的灵长类动物大脑所拥有的神经元数量一样多。啮齿动物和食虫动物的大脑具有更糟糕的 Scaling 法则——在这些目中,大脑相对较大的物种的神经元比你根据它们大脑质量预期的要少得多。

 

这表明,与其他物种的大脑相比,有些灵长类动物的神经架构在可扩展性方面确实更为出色,类似于Transformers 比长短期记忆网络(LSTM)和递归神经网络(RNN)具有更好的扩展曲线。进化论在设计灵长类动物大脑时吸取了(或者至少偶然发现了)这个惨痛的教训,并且灵长类动物竞争的利基环境极大地奖励了智力的边际增长(你必须理解所有这些来自你的双眼视觉、能使用对立拇指工具的手、以及其他能与你交流的聪明猴子的数据)。

 

【1】这似乎是你需要的计算量,你需要扩大当前模型的规模,使其足以编写一篇科学手稿长度的输出,这些输出与人类可能写的内容没有什么区别。

 

【2】假设按照 Chinchilla 的最优扩展方式(这大致意味着,为了有效扩展计算资源,额外计算资源的一半应该来自于增加的数据量,另一半来自于增加的参数)。你可以尝试以非最优的方式训练 Chinchilla,但这可以帮助你弥补轻微的数据不足,而不是 5 个数量级的短缺。

 

【3】坚信者继续说道:与人类相比,大型语言模型(LLMs)在样本利用效率上确实不高(GPT-4 在其训练过程中接触到的数据远比一个人从出生到成年看到的数据要多得多,但它远没有我们聪明)。但我们没有考虑已经编码到我们基因组中的知识——这是一个经过数亿年的进化,利用比 GPT-4 所见过的所有数据还要多得多的数据训练出来的微小而浓缩的提炼物。

 

【4】实际上,如果评估器也是愚笨的 GPT-4 级别模型,对于这种自我对弈循环可能会更好。在生成对抗网络(GANs)中,如果鉴别器比生成器强大得多,那么它就会停止向生成器提供任何反馈,因为它无法给出虽然不完美但方向正确的信号。

 

【5】例如,Pinker 在这里列出了一系列限制,这些限制是像神经网络这样的联结主义架构在尝试表示语言规则时是必须屈服的。乍一看(我强调这只是第一印象)GPT-4 似乎逃脱了所有这些所谓的限制。而 Pinker 在这里指出了 ChatGPT 中缺乏常识的问题,而这一问题在一个月后 GPT-4 发布时得到了修复。

 

【6】坚信者继续说道:在玩具环境中,我们有能力探究 Transformer 的内部结构,我们实际上可以看到它们开发的世界模型。研究人员训练了一个 Transformer 来预测一种名为“奥赛罗”的类似象棋的棋盘游戏中的下一步行动。该模型不会接收任何关于游戏规则或棋盘结构的指令,它得到的只是一堆游戏记录。所以你要做的就是向原始的 Transformer 中提供一堆游戏记录序列,比如“E3 D3…”。研究人员发现,只需在模型输入游戏记录后读取模型的权重,就可以重建棋盘的状态。这证明,该网络仅通过阅读一些原始文字记录,就开发了一个强大的游戏内部表征。

 

【7】质疑者继续说道:“智能=压缩”的框架似乎也不够精细,无法区分随机梯度下降(SGD)通过在平滑的损失景观中爬坡找到语义规律,以及爱因斯坦在等同错误的众多排列和变体中挑选出相对论正确方程式的差异。我看不出有什么理由认为 SGD 可以找到后者相对论的“压缩”,因此可以像爱因斯坦那样聪明。

 

【8】你可能会争辩说,针对数学和编程的 FunSearch 设置具有紧密的反馈循环和具体的获胜条件,而其他领域不太可能共享这些条件。但这更多的是我想向你们指出的心理体操。

 

原文链接:

https://www.dwarkeshpatel.com/p/will-scaling-work

2025-02-21 14:358233

评论

发布
暂无评论

区块链技术可提高数据可信性和安全性

CECBC

区块链技术 安全性

不可用与高可用

dongge

架构师训练营第十一章作业

叮叮董董

甲方日常1

句子

工作 随笔杂谈 日常

架构师训练营第十一章作业

吴吴

图解 K8s 核心概念和术语

后端进阶

Docker Kubernetes 容器 云原生 k8s

week 11作业

Geek_z9dmvw

导致系统不可用的原因有哪些?

leis

架构师训练营第 11 周——练习

李伟

极客大学架构师训练营

架构师培训 -11 安全、高可用

刘敏

极客大学架构师训练营---习题

李朋

week11 总结

雪涛公子

架构师培训第十一周练习

小蚂蚁

《黑神话:悟空》出圈背后,国产3A游戏的技术新机

脑极体

奈学:红黑树(RedBlackTree)的概述

古月木易

第11周 安全和高可用

陆不得

week11 作业

雪涛公子

架构师训练营-第十一周-命题作业

sljoai

极客大学架构师训练营 命题作业 第十一周

架构师训练营——第11周作业

jiangnanage

架构师课程第十一周总结

dongge

系统高可用

陈皮

LeetCode题解:20. 有效的括号,while循环replace,JavaScript,详细注释

Lee Chen

大前端 LeetCode

Week11总结

leis

Cause: java.sql.SQLTimeoutException: ORA-01013: user requested cancel of current

Java个体户

Druid

架构师训练营——第11周学习总结

jiangnanage

合同、封条、电梯……通通上链!

CECBC

区块链技术 监管平台

Java二进制和位运算,这一万字准能喂饱你

YourBatman

位运算 二进制

对于三千万攀登者来说,云是安全绳,是登山杖,是趋顶之路

脑极体

奈学:红黑树(RedBlackTree)的概述

奈学教育

AVL

【Elasticsearch 技术分享】—— Elasticsearch 存储一条数据, put 过程是什么样子的?

程序员小航

Java elasticsearch 搜索 ES Lucene Elastic Search

手写Spring框架之IOC

简爱W

观点博弈:我们还应该期待AGI吗?_AI&大模型_DWARKESH PATEL_InfoQ精选文章