Anthropic创始人访谈：与 Altman 分道扬镳不是因为商业化、scaling law不会撞墙、未来将放缓招聘步伐

编辑 | 蔡芳芳、Tina

在一次近三小时的深入访谈中，Anthropic 联合创始人兼 CEO Dario Amodei 与播客主持人 Lex Fridman 分享了他的观点。Amodei 表示，他并不在意 AI 行业的竞争，而是更关注如何负责任地发展 AI。他还坦诚地谈到了自己离开 OpenAI 的原因，以及 Anthropic 在命名 AI 模型时遇到的挑战。

在 2021 年创办 Anthropic 之前，Amodei 在 OpenAI 领导了五年的研究工作，领导了大语言模型（如 GPT-2 和 GPT-3）的开发。他亲眼见证了 AI 在智能和能力上的指数级扩展。他认为，如果没有负责任的扩展方法——一种优先考虑建立系统和开发人员信任的方法——AI 就永远无法实现其彻底改变世界的潜力。为了实现他的愿景，他意识到自己必须离开 OpenAI。

Amodei 说：“关于我离开 Sam Altman 领导的公司，外面有很多误传。有人说我们离开是因为不喜欢与微软的协议，这不是真的。”他说，离开的真正原因是，“和别人争论愿景是极其无效的。”他告诉自己，与其留在 OpenAI 争取自己的愿景，不如“带着一些你信任的人去实现自己的愿景。”

Amodei 说：“如果你能创建一个人们愿意加入的公司，采取人们认为合理的做法，同时还能在生态系统中保持自己的地位，其他人就会效仿。”他补充道，当商业领袖看到竞争对手采用成功的战略时，“这比你和老板争论时更能促使他们改变行为。”

这位 Anthropic 创始人还表达了对公司命名 AI 模型的困扰。目前，Anthropic 的模型系列命名为“Claude”，分为三个版本：小而便宜的 Haiku、中等大小且价格适中的 Sonnet，以及更大且更贵的 Opus。今年 6 月，Anthropic 推出了 Claude 3.5 Sonnet，这是其中型模型的最新版本；10 月份又发布了这个模型的更新版本，改进了软件工程能力。令人困惑的是，这个新版本的模型被正式命名为 Claude 3.5 Sonnet 2024-10-22，以发布的日期为名。

Fridman 对此表示好奇，为什么 Anthropic 不直接将更新后的模型命名为 Claude 3.6 Sonnet。Amodei 同意这个命名有些混乱，并表示他认为没有任何 AI 公司真正“搞定命名”这一问题。“相比它本身的简单性，我们竟然在这方面挣扎得出奇多。”

Amodei 解释说，问题在于，虽然 Anthropic 可以快速更新模型，但公司并不认为模型是“新的”，除非模型神经网络的规模发生了变化。此外，他表示，不同大小的模型需要不同的训练时间，如果一个模型比另一个模型晚发布，这可能会使命名变得复杂。

Amodei 笑着说：“当我们有 Haiku、Sonnet 和 Opus 时，我觉得我们在命名上做得不错，”他说，“我们正在努力保持这种命名，但它并不完美。我们会尽量回到简单的命名方式。”

以下是 Dario Amodei 和 Lex Fridman 访谈的翻译版本，略有删节：

缩放定律 Scaling Law

Lex Fridman：我们先从缩放定律和缩放假说这个概念开始。它指的是什么？历史发展是怎样的？我们目前处于什么位置？

Dario Amodei：我只能根据自己的经验来描述，我从事人工智能领域已有大约 10 年了，我很早就注意到了这一点。2014 年底，我在百度与吴恩达共事时首次进入人工智能世界，到现在差不多正好是 10 年。我们最先研究的是语音识别系统，当时我认为深度学习还是一个新事物，它取得了很大进展，但每个人都认为我们还有太多需要探索的东西。

从某种程度上来说，我很幸运，我当时就像是这个领域的新手，所以可以说拥有初学者的运气。我看着我们用于语音识别的神经网络，即循环神经网络，我说：“我不知道，如果你把它们做大，加更多层会怎么样？如果同时扩大数据规模会怎么样？”我注意到，随着你给它们提供更多数据，随着你让模型变大，随着你训练它们的时间越来越长，模型的表现开始越来越好。当时我并没有精确地衡量，但我和同事们都非常非正式地感觉到，给这些模型的数据越多、计算越多、训练越多，它们的表现就越好。

所以最初我的想法是，“嘿，也许这只适用于语音识别系统，也许这只是一个特定的怪癖，一个特定的领域。”直到 2017 年我第一次看到 GPT-1 的结果时，我才意识到语言可能是我们可以做到这一点的领域。我们可以获得数万亿个单词的语言数据，我们可以对其进行训练。当时我们训练的模型还很小，你可以在 1-8 个 GPU 上训练它们。而现在我们在数万个 GPU 上训练作业，很快就会达到数十万个 GPU。

我认为在 2014 年至 2017 年之间，我才真正明白这一点，当时我真正确信，“嘿，如果我们扩大模型，我们将能够完成这些范围非常广泛的认知任务。”

在扩展的每个阶段，总是有争论。当我第一次听到这些争论时，老实说，我想也许是我错了，而这个领域的所有这些专家都是对的，他们比我更了解情况。乔姆斯基有这样一种观点，“你可以得到句法，但你不能获得语义。”还有这样一种观点，“你可以让一个句子有意义，但你不能让一个段落有意义。”今天最新的争论是，“我们将耗尽数据，或者数据质量不够高，或者模型无法推理。”

每次，我们都会设法找到解决方法，或者扩大规模本身就是解决方法。虽然事情总是充满不确定性，但现在我仍然认为，未来两年将会像过去十年一样。我已经看过同样的情况发生很多次了，我真的相信这种扩大规模可能会继续下去，而且它有一些魔力我们还没有在理论上真正解释过。

Lex Fridman：这里的扩展是指更大的网络、更大的数据、更大的计算所有这些？

Dario Amodei：是的。尤其是，更大的网络、更长的训练时间和越来越多的数据都线性放大。所有这些事情，就像一个化学反应，化学反应中有三种成分，你需要线性放大这三种成分。如果你只放大其中一种成分，其他试剂就会耗尽，反应就会停止。但如果你将所有成分串联起来放大，那么反应就可以继续进行。

Lex Fridman：当然，既然有了这样一种经验科学/艺术，你可以将其应用于其他更细微的事物，例如应用于可解释性的缩放定律或应用于后训练（PostTraining）的缩放定律，或者只是看看这个东西如何扩展。但大缩放定律，我猜潜在的缩放假设就是大网络、大数据会带来智能？

Dario Amodei：是的，我们已经在语言以外的许多领域记录了缩放定律。我们最初在 2020 年初发表的论文，首次在语言中展示了这一点。然后在 2020 年末，我们又做了一些工作，在其他模态中展示了同样的现象，比如图像、视频、文本转图像、图像转文本、数学，它们都存在相同的模式。你说得对，现在还有其他阶段，比如后训练，或者新类型的推理模型。在我们测量的所有这些情况下，我们都看到了类似的缩放定律。

LLM 扩展的上限

Lex Fridman：模型扩展的上限是多少？现实世界到底有多复杂？有多少东西需要学习？

Dario Amodei：我认为我们中没有人知道这个问题的答案。我强烈的直觉是，在人类水平以下没有上限。我们人类能够理解所有这些不同的模式。因此，这让我觉得，如果我们继续扩大这些模型的规模，开发新的方法来训练它们并扩大规模，那么至少可以达到我们人类的水平。那么问题来了，它的理解能力能比人类多多少？它能比人类更聪明、更有洞察力多少？我猜答案必须取决于领域。

如果我研究像生物学这样的领域，我写了一篇文章叫做《充满爱意的机器（Machines of Loving Grace）》，在我看来，人类正在努力理解生物学的复杂性。如果你去斯坦福大学、哈佛大学或伯克利大学，你会发现整个系里的人都在研究免疫系统或代谢途径，而每个人只了解一小部分，只专注于其中的一部分。他们正在努力将自己的知识与其他人的知识结合起来。所以我有一种直觉，在顶端人工智能有很大的空间可以变得更聪明。

如果我研究物理世界中的材料，或者解决人与人之间的冲突之类的问题，可能其中一些问题并不棘手，但要困难得多。就像语音识别一样，只有足够清晰我才能听到你的讲话。所以我认为在某些领域可能存在上限，与人类能做的事情非常接近的上限。而在其他领域，上限可能非常遥远。我认为我们只有在构建系统时才能发现上限到底在哪里，很难提前知道。我们可以推测，但不能确定。

Lex Fridman：人类从根本上来说必须成为循环的一部分。这是天花板的原因，而不是智能的极限。

Dario Amodei：是的，我认为在很多情况下，从理论上讲，技术可能会变化得非常快。例如，我们可能会发明生物学方面的所有东西，但请记住，我们必须通过临床试验系统才能真正将这些东西施用于人类。我认为这是多种因素的混合体，可能是不必要的官僚机构，可能是为了保护社会完整性，挑战在于很难分辨到底是哪个因素。

我认为，就药物开发而言，我们太慢、太保守了。但当然，如果你做错了什么，或者太鲁莽，可能会危及人们的生命。所以至少其中一些人类机构实际上是在保护人们。所以一切都是为了找到平衡。我强烈怀疑平衡更多的偏向希望事情进展得更快，但平衡是存在的。

Lex Fridman：如果我们真的达到了极限，如果我们真的遇到了缩放定律放缓，你认为原因是什么？是计算受限、数据受限吗？还是其他原因？比如想法受限？

Dario Amodei：现在我们谈论的是，在达到人类水平和技能之前，我们可能会遇到极限。我认为，当今流行的一个说法，也是我们可能遇到的一个限制（就像大多数限制一样，我敢打赌这种情况不会发生，但确实有可能），那就是我们耗尽了数据。互联网上的数据是有限的，而且数据质量存在问题。互联网上可以找到数百万亿个单词，但其中很多都是重复的，或者是搜索引擎优化的废话，在未来甚至可能是由人工智能自己生成的文本。所以我认为以这种方式产生的数据确实是有限的。

话虽如此，我们公司，我猜还有其他公司，正在研究如何合成数据，你可以使用模型生成更多已有类型的数据，甚至可以从头开始生成数据。你可以想想 DeepMind 的 AlphaGo Zero 是如何做到的，他们设法让一个机器人从完全不会下围棋到超越人类水平，仅仅通过与自己对弈。AlphaGo Zero 版本甚至不需要来自人类的示例数据。

当然，另一个方向是这些推理模型，它们会进行思维链，然后停下来思考并反思自己的思维。在某种程度上，这是另一种合成数据与强化学习相结合的方式。所以我的猜测是，通过其中一种方法，我们将绕过数据限制，或者可能存在其他可用的数据来源。

我们可以观察到，即使数据没有问题，当我们开始扩大模型规模时，它们就会停止变得更好。这似乎是一个可靠的观察结果，即它们已经变得更好，但可能会在某个时候因为我们不理解的原因而停止。

答案可能是我们需要发明一些新的架构。过去曾出现过一些问题，比如模型的数值稳定性，看起来似乎一切趋于平稳，但实际上当我们找到正确的解锁方法时，它们并没有真的变得平稳。所以也许我们需要一些新的优化方法或新技术来解锁问题。到目前为止我还没有看到这方面的证据，但如果事情进展缓慢，这也许可能是一个原因。

Lex Fridman：那么计算的极限又如何呢？这意味着建设越来越大的数据中心的成本会非常昂贵？

Dario Amodei：我认为现在大多数前沿模型公司的集群规模都在 10 亿美元左右，上下浮动 3 倍。这是指现在存在的或正在训练的模型。我认为明年我们的规模将达到几十亿美元，到 2026 年，我们可能会超过 100 亿美元。到 2027 年，可能将实现打造千亿美元集群的雄心。我认为所有这些都将真正实现。大家有很大的决心打造这个规模的计算集群，我猜这确实会发生。

现在，如果我们达到一千亿，计算规模仍然不够，那么我们要么需要更大的规模，要么需要开发某种更有效地改变曲线的方法。我认为，在所有这些因素中，我看好强大人工智能如此迅速发展的原因之一是，如果你推断曲线上的下几个点，我们很快就会接近人类水平的能力。

我们开发的一些新模型，一些来自其他公司的推理模型，它们开始达到我所说的博士或专业水平。如果你看看这些模型的编码能力，比如我们发布的最新模型 Sonnet 3.5，新版本在 SWE-bench 上获得了大约 50% 的分数。

SWE-bench 是一系列专业的现实世界软件工程任务的其中一个例子。今年年初，我认为最先进的水平是 3% 或 4%。所以在 10 个月内，我们在这个任务上的完成率从 3% 提高到了 50%。我想再过一年我们可能会达到 90%，或者可能更低一点。

我们在研究生水平的数学、物理和生物学中也看到了类似的情况，比如 OpenAI 的 o1 模型。所以如果我们继续根据我们拥有的技能进行推断，我认为如果我们按照直线曲线进行推断，几年内，这些模型就会超过人类的最高专业水平。现在，这条曲线会继续下去吗？你已经指出了，我也指出了很多可能不会发生这种情况的原因。但如果推断曲线继续下去，这就是我们所处的轨迹。

与 OpenAI、Google、xAI、Meta 的竞争

Lex Fridman：Anthropic 有几个竞争对手，OpenAI、Google、XAI、Meta。听听你对它们的看法会很有趣。要在这个领域取得广泛意义上的胜利，需要什么？

Dario Amodei：我想把几件事分开来说。Anthropic 的使命是努力让这一切顺利进行。我们有一个变革理论，叫做“力争上游”（race to the top），指的是通过树立榜样，努力推动其他参与者做正确的事情。这不是指要做个好人，而是通过做一些事情，让我们所有人都能成为好人。

延伸资料：Anthropic's Responsible Scaling Policy

我举几个例子。在 Anthropic 早期历史中，我们的联合创始人之一 Chris Olah 是机械可解释性领域的联合创始人，该领域旨在了解 AI 模型内部发生的事情。他和我们的一个早期团队专注于可解释性领域，我们认为这有利于使模型安全透明。

在过去的三四年里，这个研究没有任何商业应用，现在仍然没有。我们正在对它进行一些早期测试，也许最终会有商业应用，但这是一个非常非常漫长的基础研究，我们是公开构建并公开分享了我们的结果。这样做是因为我们认为这是一种让模型更安全的方法。

有趣的是，当我们这样做时，其他公司也开始这样做了。在某些情况下他们受到了启发，在某些情况下他们担心如果其他公司这样做会显得更负责任，他们也希望自己看起来更负责任。没有人想看起来像不负责任的演员。所以他们也采用了这种方法。

当人们来到 Anthropic 时，可解释性通常很吸引人，我会告诉他们，“你没有去的其他地方，告诉他们你来这里的原因。”然后你很快就会发现其他地方也有了可解释性团队。

在某种程度上，这会削弱我们的竞争优势，因为我们会想，“哦，现在其他人也在做这件事。”但这对更广泛的系统有好处，所以我们必须发明一些我们正在做而其他人做得不好的新事物。我们希望从根本上提高做正确事情的重要性。这不是只关于我们的特定问题，这不是关于某个特定的好人的问题，其他公司也可以这样做。如果他们加入竞争，那就是最好的消息。可以说这是在塑造向上的激励机制，而不是塑造向下的激励机制。

Claude 系列模型

Lex Fridman：我们来谈谈 Claude，今年发生了很多事情。3 月份，Claude 3 Opus、Sonnet、Haiku 发布；7 月份 Claude 3.5 Sonnet 发布，刚刚又发布了更新版本，Claude 3.5 Haiku 也发布了。你能解释一下 Opus、Sonnet 和 Haiku 之间的区别吗，以及我们应该如何看待不同的版本？

Dario Amodei：让我们先回到 3 月份，我们首次发布这三种模型的时候。当时我们的想法是，不同的公司会生产各种各样不同的模型，大型和小型模型、更好和更差的模型。我们觉得，市场既需要真正强大的模型，但速度可能会慢一些、需要付出更多成本；同时也需要快速、便宜的模型，这些模型既要尽可能地智能，又要尽可能地快速、便宜。每当你想要进行某种困难的分析时，比如我想编写代码，或者我想集思广益，或者我想进行创意写作，我都需要真正强大的模型。

但从商业角度来看，还有很多实际应用，比如与网站互动、报税、与法律顾问交谈、想分析一份合同，或者想在 IDE 上自动完成某个功能。对于所有这些事情，你都希望快速行动，并希望广泛使用该模型。我们想满足所有这一系列需求，最终得到了这个诗歌题材的系列模型。

一首非常短的诗，对应的就是 Haiku（编者注：即俳句，是一种源自日本的诗歌形式，由三行组成，遵循 5-7-5 的音节模式）。Haiku 是一种小型、快速、便宜的模型，它在足够智能的同时，做到了令人惊讶的快速和便宜。

Sonnet （编者注：即十四行诗，由十四行组成）则是中等篇幅的诗，所以 Sonnet 是中型模型，它比 Haiku 更智能，但更慢一点、更贵一点。而 Opus 则对应的是巨著，是一部大型作品，因为 Opus 是最大、最智能的模型。这是背后最初的想法。

我们的想法是，每一代新模型都应该改变这种权衡曲线。所以当我们发布 Sonnet 3.5 时，它的成本和速度与 Sonnet 3 模型大致相同，但它的智能程度提高了，甚至比原来的 Opus 3 模型更聪明，尤其是在代码编写方面。

现在我们发布了 Haiku 3.5，我相信最小的新模型 Haiku 3.5 与最大的旧模型 Opus 3 差不多好。所以基本上我们的目标就是改变曲线，然后在未来某个时候会出现 Opus 3.5。

每一代新模型都有自己的特点。它们使用新数据，它们的个性会以我们试图控制但无法完全控制的方式发生变化。因此，永远不会有完全等同的情况，你唯一能改变的就是智力。我们总是试图改进其他东西，有些东西在我们不知情或测量的情况下发生了变化。所以这是一门非常不精确的科学。在许多方面，这些模型的举止和个性更像是一门艺术，而不是一门科学。

Lex Fridman：Claude Opus 3.0 和 3.5 之间的时间间隔为何如此之长呢？能否解释一下，是什么原因占导致花了这么长的时间？

Dario Amodei：当然，因为这里面有不同的流程。比如有预训练，这只是一种正常的语言模型训练，这就需要很长时间。有时候需要使用数万个 GPU 或 TPU 或不同的平台、加速器芯片来做训练，通常训练就要花几个月时间。

然后是后训练阶段，我们会根据人类反馈进行强化学习，以及进行其他类型的强化学习。这个阶段现在越来越长，而且通常这不是一门精确的科学，需要付出很多努力才能得到好的结果。

接着我们会与一些早期合作伙伴一起测试模型，看看模型表现有多好，再对模型进行内部和外部测试，以确保其安全性，特别是针对灾难性分线和自主性风险。

我们会根据负责任的扩展策略进行内部测试，然后与美国和英国的人工智能安全研究所以及特定领域的其他第三方测试人员达成协议，以测试模型的化学、生物、放射和核风险（CBRN）。我们认为模型目前还不构成这些严重风险，但我们希望评估每个新模型，看看我们是否开始接近这些更危险的能力。

上述这些都是不同的流程，接着只需要一些时间让模型在推理方面发挥作用，并在 API 中启动它。

所以要真正让模型发挥作用，有很多步骤。当然，我们一直在努力使流程尽可能简化。

我们希望我们的安全测试是严格的，但我们希望它严格且自动化，在不影响严谨性的情况下，尽可能快地进行。我们的预训练过程和后训练过程也是如此。所以这就像建造其他任何东西一样，比如制造飞机，你既想要安全，但又希望简化流程。我认为两者之间的创造性张力是使模型发挥作用的重要因素。

Lex Fridman：坊间有传言，我忘了是谁说的，Anthropic 的工具确实很好。所以，在软件工程方面，很多挑战可能在于构建工具，以便与基础设施进行高效、低摩擦的交互。

Dario Amodei：你可能会惊讶地发现，构建这些模型的挑战中，软件工程和性能工程占了多大比重。从外部来看，可能大家会想，“哦，天哪，我们取得了突破性进展。我们有了重大发现。”但我认为所有的事情，即使是令人难以置信的发现，它们几乎总是归结为细节，而且往往是极其无聊的细节。我不能说我们的工具是否比其他公司更好。我的意思是，至少最近没有去过其他公司，但这确实是我们非常关注的事情。

Lex Fridman：我不知道你是否能说清楚，从 Claude 3 到 Claude 3.5，是否有任何额外的预训练，还是主要侧重于后训练？才让性能有了飞跃。

Dario Amodei：我认为在任何特定阶段，我们都专注于同时改进所有方面。就像有不同的团队，每个团队都致力于在特定领域取得进展，使他们在接力赛中的特定环节表现得更好。当我们创建一个新模型时，我们会同时把所有这些东西放进去。

Lex Fridman：那么你们拥有的数据，比如从 RLHF 获得的偏好数据，有没有办法在训练过程中将其应用于较新的模型？

Dario Amodei：是的。旧模型中的偏好数据有时会用于新模型，在新模型上训练时，它的表现当然会更好一些。请注意，我们有 Consititution AI 方法，因此我们不仅使用偏好数据，还有一个后训练过程，我们让模型针对自身进行训练。每天都有新类型的后训练模型针对自身的方法在使用。所以不仅仅是 RLHF，还有很多其他方法。我认为后训练正变得越来越复杂。

Lex Fridman：那如何解释新的 Sonnet 3.5 的性能大幅提升呢？我的意思是，至少在编程方面，也许现在正是谈论基准测试的好时机。变得更好意味着什么？只是数字上升了吗？我会编程，我也喜欢编程，我使用 Claude3.5 和 Cursor 来辅助我编程。而且，至少从经验和传闻来看，它在编程方面变得更智能了。那么，如何才能让它变得更智能呢？

Dario Amodei：我们也注意到了这一点。顺便说一句，Anthropic 有几位非常厉害的工程师，之前我们和其他公司开发的所有代码模型对他们来说都没什么用。他们说：“也许这对初学者有用，但对我来说没用。”但对于最初那版 Sonnet 3.5，他们第一次说：“哦，天哪，这帮我完成了一件本来要花几个小时才能完成的事情。这是第一个真正为我节省时间的模型。”

所以，水位再次上升了。我认为新版的 Sonnet 甚至更好。至于到底是什么让它变得更好，我只能说是全方位的。无论是在预训练中，还是在后训练阶段，还是在我们进行的各种评估中。如果我们深入研究基准测试的细节，那么 SWE-bench 实际上提供了一个真实世界的情况，其中代码库处于当前状态，我正在尝试用语言描述完成一些任务。我们有内部基准，我们测量相同的东西，然后你说，“只要让模型自由地做任何事情，运行任何事情，编辑任何事情。它能多好地完成这些任务？” 正是这个基准从“它在 3% 的时间内可以做到”变成了“它在大约 50% 的时间内可以做到”。

所以我相信，如果我们在不过度训练或不被特定基准玩弄的情况下，能在该基准上达到 100%，可能代表编程能力有真正和显著的提升。我认为如果我们能达到 90% 或 95%，这将代表我们能够自主完成很大一部分软件工程任务。

Lex Fridman：接下来是荒谬的时间线问题。Claude Opus 3.5 什么时候推出？

Dario Amodei：没办法给你确切的日期，但我们的计划仍然是会推出 Claude 3.5 Opus。

Claude4.0

Lex Fridman：那么 4.0 呢？那么，随着这些模型变得越来越大，您如何看待版本控制以及一般的版本控制，为什么 Sonnet 3.5 会随日期更新？为什么不是很多人称之为 Sonnet 3.6 的版本？

Dario Amodei：其实是一个有趣的挑战，对吧？因为我认为一年前，大多数模型都是预训练的。所以你可以从头开始，然后说，“好吧，我们将拥有不同大小的模型。我们将一起训练它们，我们将拥有一系列的命名方案，然后在其中添加一些新的魔法，我们就有了下一代。”

当其中一些模型比其他模型花费更长的时间来训练时，麻烦就开始了。这已经有点打乱你的时间了。但是，当随着你在预训练方面取得巨大进步时，你突然注意到，哦，我可以制作更好的预训练模型，而且这并不需要很长时间。而且还有一些相同与之前模型相似的地方，比如 size 和 shape。

所以现实往往会打破你理想中的方案。这不像软件，你可以说，“哦，这是 3.7，这是 3.8。”但模型不一样，有各种不同的权衡：你可以改变模型中的这些东西，也可以改变其中的另一些东西；有些模型在推理时更快，有些模型更慢；有些模型必须更贵，有些模型必须更便宜。所以我认为所有公司都为此苦苦挣扎。

我认为我们做得非常好。我们有 Haiku、Sonnet 和 Opus ，在命名方面处于有利地位。我们正在努力保持这种状态，但它并不完美，所以我们会尝试回归简单。但就这个领域的性质而言，我觉得没有人能找到完美命名方法。它在某种程度上是一种不同于普通软件的范式。没有哪家公司在这方面做得很完美。我们在这方面的挣扎程度令人惊讶，你知道，相对于训练模型的宏大科学来说，这是多么微不足道的事情。

Lex Fridman：因此从用户角度来看，更新后的 Sonnet 3.5 的用户体验与之前的 2024 年 6 月 Sonnet 3.5 完全不同。如果能想出某种标签来体现这一点就好了。比如人们谈论 Sonnet 3.5，但现在有不同的版本，那么你如何引用前一个版本和新版本？什么时候会有明显的改善？这只会让有关它的谈论变得充满挑战性。

Dario Amodei：是的。我确实认为这个问题是模型的许多属性没有反映在基准中。我认为这绝对是事实，而且每个人都同意。

并非所有属性都是能力。模型可以很有礼貌或粗鲁，也可能有热情或冷漠的个性。它们可能很无聊，也可能非常独特。我们有一整个团队专注于研究，我想我们称之为 Claude 角色，但这仍然是一门非常不精确的科学，我们经常发现模型具有我们不知道的属性。事实上，你可以和模型交谈 10,000 次，但有些行为你可能看不到，就像人类一样，对吧？比如说我认识某人已经几个月的时间了，但可能不知道他们有某种技能，也不知道他们有一方面的特质。

我们一直在寻找更好的方法来测试我们的模型，以展示这些能力，并决定我们希望模型拥有哪些个性属性，哪些是我们不想拥有的。这本身是规范性问题，也非常有趣。

对 Claude 的批评

Lex Fridman：我要问您一个来自 Reddit 的问题。对我来说，这很有意思，至少这是一种心理社会现象：人们报告说，随着时间的推移，Claude 变得越来越笨。所以问题是，用户对 Claude 3.5 Sonnet 的抱怨是否站得住脚？那么这些轶事报道是一种社会现象吗？或者是否存在 Claude 会变得更笨的情况？

Dario Amodei：所以这不仅仅是关于 Claude 的事情。我相信我已经看到过这些抱怨，针对大公司生产的每个基础模型。人们对 GPT-4 说过这样的话，他们对 GPT-4 Turbo 也说过这样的话。所以有几件事。第一，模型的实际权重，模型的实际大脑不会改变，除非我们引入新模型。有很多理由表明，在实践中随机替换模型是行不通的。

随机替换新版本的模型，从推理的角度来看，这很困难，而且实际上很难控制改变模型权重的所有后果。假设你想微调模型：让它少说“当然”这个词，这是 Sonnet 的旧版本曾经做过的，实际上这最终也会改变 100 件事。

所以我们有一个完整的流程，一个完整的修改模型的流程：我们对其进行大量测试、我也对早期客户和大量用户进行测试。所以我们从未在不告诉任何人的情况下更改过模型的权重。当然，在目前的设置下，这样做也是没有意义的。

现在，我们偶尔会做一些测试。一是有时我们会运行 A/B 测试，但这些测试通常在模型发布时非常接近，而且持续时间很短。就像在新的 Sonnet 3.5 发布前一天（我同意我们应该有一个更好的名字，它太笨拙了）。有人评论说它已经好多了，那是因为我们在一两天内只接触了一小部分 A/B 测试。

另一个是系统提示偶尔会发生变化。系统提示可能会产生一些影响，尽管它不太可能降低模型的复杂度，但也不太可能使它们变得更笨拙。

我们已经看到，虽然我列出的这两件事非常完整，但发生的频率相当低，我们和其他模型公司对模型变化的抱怨，模型在这方面表现不佳、模型受到更多审查、模型变得低效，这些抱怨一直存在。所以我不想说这是人们想象出来的，但模型在很大程度上真的并没有改变。

如果我要给出一个理论，我认为它实际上与我之前说过的一件事有关，那就是模型非常复杂，有很多方面。所以很多时候，如果我问模型一个问题，比如“做任务 X”而不是“你能做任务 X 吗？”模型可能会以不同的方式回应。因此，你可以通过各种细微的改变，来更改与模型交互的方式，从而得到截然不同的结果。

需要明确的是，这本身像是我们和其他模型提供商的失败，因为模型通常对措辞的细微变化很敏感。关于这些模型如何工作的研究还很薄弱。所以，稍微改变了与模型交谈的措辞，可能会得到不同的结果。很难量化这些东西。

我认为，当新模型问世时，人们会非常兴奋，但随着时间的推移，他们开始意识到这些模型的局限性。所以这可能是另一种影响。在大多数情况下，除了一些相当少数的例外，模型并没有改变。

Lex Fridman：我认为这是一种心理效应。你刚开始习惯它，基线就会提高。当人们第一次在飞机上使用 Wi-Fi 时，感觉很神奇，后来就开始认为它很垃圾，因此很容易产生这样的阴谋论：“他们让 Wi-Fi 越来越慢。”Reddit 上还有另一个问题，“Claude 什么时候才能停止试图成为我清教徒般（puritanical）的祖母，将其道德世界观强加给我这个付费客户？而且，让 Claude 过于表达歉意的背后心理是什么？”换个角度看，这些挫折感也跟个性相关。

Dario Amodei：是的，首先我想说几点。首先，人们在 Reddit、Twitter 或 X 等平台上发表的内容，实际上这些东西之间存在巨大的分布转移。你知道，模型没有写出所有的代码，表现不尽人意，尽管它是世界上最好的代码模型。我认为大多数事情都与此有关。但可以肯定的是，有少数一部分人会提出这些担忧，对吧？对模型拒绝不该拒绝的事情感到沮丧，或者喜欢过多道歉，或者只是有这种令人讨厌的口头禅。

第二个，我想我说得非常清楚，可能有些人不知道，也有有些人知道但忘记了，就是我们很难全面控制模型的行为。你不能直接说，“哦，我希望模型少道歉。”你可以加入这方面的训练数据，但在一些情况下，他们最终会变得非常粗鲁或过度自信，以至于误导人们。所以这里面有很多权衡。

另一件事是，如果有一段时间，我们的模型过于冗长（too verbose），其他人的模型也一样，它们喜欢重复自己的话，会说太多的话。你可以通过惩罚模型说得太长来减少冗长的话语。如果你以一种粗暴的方式，当模型编码时，有时这是节约的方法，但这会导致模型在编码方面变得懒惰，他们只是说，“啊，你可以完成剩下的部分。” 这不是因为我们想节省计算，也不是因为模型在偷懒，或者任何其他出现的阴谋论。实际上，控制模型的行为、在所有情况下同时控制模型的行为非常困难。就像打地鼠一样，你推一个东西，其他东西也会动，而你可能甚至没有注意到或测量到。

所以我非常关心未来这些人工智能系统的整体情况，原因之一是这些系统实际上非常难以预测。它们实际上很难操纵和控制。我们今天看到的这个版本，你让一件事变得更好，就会让另一件事变得更糟。我认为这就像是人工智能系统中未来控制问题。我认为困难在于引导并确保人工智能系统朝着一个方向发展，同时它不会以我们不希望的方式发展到另一个方向。

我认为我们在这些问题上做得并不完美。我也认为我们实际上在所有 AI 公司中做得最好的，但距离完美还差得很远。

我认为，如果我们能做好这件事，如果我们能在当今这个高度受控的环境中控制误报和漏报，那么我们在未来就能做得更好。因为我们担心的是：这些模型会超级自动化吗？它们能做出非常危险的东西吗？它们能自主建立整个公司吗？这些公司是否一致？所以我认为目前的任务既令人烦恼，但也是未来的良好实践。

Lex Fridman：目前收集用户反馈的最佳方式是什么？不是轶事数据，而是关于痛点或积极的事情等的大规模数据？是内部测试吗？是特定群体测试、A/B 测试吗？什么方法有效？

Dario Amodei：通常情况下，我们会对 Anthropic 内部的 model bashings。Anthropic 有将近 1,000 名员工，尝试以各种方式与模型互动。我们有一套评估方法，比如“哦，模型是否以它无法做到的方式拒绝了？”我认为我们甚至有一个“肯定”评估，因为有时模型会对广泛的问题做出回应：“ certainly ，我可以帮你。” “certainly，我很乐意这么做。” “certainly，这是正确的。”因此，我们有一个“certainly ”评估，即：模型说“ certainly ”的频率是多少？但是，你看，这只是一场打地鼠游戏。如果它从“ certainly ”切换到“definitely”会怎么样？因此，每次我们添加新的评估后，还要评估所有旧的东西，我们有数百个这样的评估，但我们发现没有什么替代品可以替代人类与它的交互。

所以这很像普通的产品开发过程。Anthropic 内部有数百人 bash 这些模型。然后我们进行外部 A/B 测试。有时我们会与承包商一起进行测试。我们付钱给承包商与模型互动。但所有的这些事情你都做了，它仍不完美，你仍然会看到你不太想看到的行为。你仍然会看到模型拒绝那些没有道理拒绝的事情。但我认为，要解决这一挑战，就要阻止模型做真正的坏事情，每个人都认为这不应该做的事情，比如每个人都认为模型不应该谈论儿童虐待话题。

我认为，尽可能精细地、接近完美地划定这条界线仍然是一项挑战。我们每天都在进步，但仍有许多问题需要解决。而且，我再次指出，在驾驭更强大的模型方面，未来仍将面临挑战。

Lex Fridman：您认为 Claude 4.0 会问世吗？

Dario Amodei：我不想遵循任何命名方案，如果我在这里说，“明年我们将推出 Claude 4”，然后我们又决定重新开始，因为出现了一种新模型......我不想承诺。在正常的业务过程中，我预计 Claude 4 会在 Claude 3.5 之后推出，但在这个古怪的领域，你永远不知道会发生什么。

Lex Fridman：但这种 scaling 的想法仍在继续。

Dario Amodei：scaling 仍在继续。我们肯定会推出比现有模型更强大的模型。这是肯定的。如果没有，那么我们作为公司就彻底失败了。

计算机使用

Lex Fridman：Claude 变得越来越强大的一个方面是它现在能够做一些代理工作，即使用电脑（Computer use）。这对我来说非常令人兴奋，你可以给 Claude 一个任务，它会采取一系列行动找出答案，并且可以通过屏幕截图访问你的计算机。那么你能解释一下它的工作原理以及它的发展方向吗？

Dario Amodei：是的。其实这相对简单。

自 3 月份的 Claude 3 以来，Claude 就具备分析图像并用文本做出响应的能力。

我们添加的唯一新功能是，这些图像可以是计算机的屏幕截图。作为响应，我们训练模型在屏幕上给出一个位置，您可以单击该位置，和/或操作键盘上的按钮。

事实证明，实际上不需要太多额外的训练，模型就可以很好地完成这项任务。这是泛化的一个很好的例子。人们有时会说，进入低地球轨道你就已经成功了一半，因为逃离重力需要付出很多努力。如果你有一个强大的预训练模型，我觉得你就已经成功了一半。所以实际上，让 Claude 做到这一点并不需要花费太多时间。

你可以将其设置为循环：给模型一个屏幕截图，告诉它单击什么，为它提供下一张屏幕截图，告诉它单击什么，这就成了一个近乎 3D 的模型视频交互，它能够完成所有这些任务。它可以填写电子表格，可以与网站交互，可以打开各种程序，打开不同的操作系统，Windows、Linux、Mac。所以我认为所有这些都非常令人兴奋。理论上只需为模型提供 API 来驱动计算机屏幕。这确实降低了门槛。有很多人要么无法与这些 API 交互，要么需要很长时间才能完成。屏幕只是一个通用界面，交互起来要容易得多。因此，我预计随着时间的推移，这将降低许多障碍。

现在，老实说，当前的模型还有很多不足之处，我们在博客中坦诚地谈到了这一点。它会犯错误，会误按。我们小心地警告人们，“嘿，你不能就这样让它在你的电脑上连续运行。你必须给这个东西设置界限和护栏。”我认为这就是我们首先以 API 形式发布它的原因之一，而不是直接交给消费者并让其控制他们的电脑。但我确实认为将这些功能公之于众很重要。

随着模型变得越来越强大，我们将不得不努力解决如何安全地使用这些功能的问题。我们如何防止它们被滥用？我认为在功能仍然有限的情况下发布模型对于实现这一点非常有帮助。自发布以来，许多客户（我认为 Replit 可能是最快的）已经以各种方式使用了它。人们在 Windows 桌面、Mac、Linux 机器上都演示过。所以是的，这非常令人兴奋。我认为和其他任何东西一样，它具有令人兴奋的新功能，凭借这些令人兴奋的新能力，我们必须考虑如何让模型安全、可靠，按照人类的意愿行事。所有事情都是一样，同样的事情，同样的紧张局势。

Lex Fridman：但这里的用例可能性，范围之广令人难以置信。那么，未来需要多少才能让它真正发挥作用？你需要在多大程度上超越预训练模型所做的事情，做更多的后训练、RLHF 或监督微调或仅用于代理的合成数据？

Dario Amodei： 是的。我们打算继续投入大量资金来改进模型。我认为我们研究了一些基准，以前的模型可能 6% 的概率可以做到，而现在我们的模型可以做到 14% 或 22%。我们希望达到人类级别可靠性的 80% 到 90% 。我们处于与 SWE-bench 相同的曲线上，我想一年后，这些模型可以非常非常可靠地做到这一点。但你必须一点一点的来。

Lex Fridman：所以您认为要达到人类水平的 90% ，只需继续做您当前所做的事情，还是必须专门为“使用电脑”进行定制？

Dario Amodei：一般来说跟我们用来训练当前模型的技术是一样的。我希望在这些技术上加倍努力，就像我们在代码、一般模型、图像输入、语音方面所做的那样，我预计这些技术将在这里得到扩展，就像在其他地方一样。

Lex Fridman：但这也赋予了 Claude 行动的权力，可以做很多非常强大的事情，但也可能造成很大的破坏。

Dario Amodei：是的。我们对此非常清楚。我的观点是，使用电脑一种全新的能力。它更像是为模型打开了使用和应用其现有能力的通道。因此从 RSP 角度来说，模型所做的任何事情都不会增加风险。

但随着模型变得越来越强大，拥有这种能力可能会让它变得更加可怕，一旦它拥有认知能力，它就会变得更加可怕。在 ASL-3 和 ASL-4 级别上，这可能让它不再受限制。这种互动方式当然是我们已经测试过的东西，我们将继续在 RSP 中测试。我认为在模型达到“超强能力”之前，学习和探索这种能力是很有价值的。

Lex Fridman：是的，有很多有趣的攻击手段，比如提示注入（prompt injection）。因为现在您扩大了视角范围，因此可以通过屏幕上的内容进行提示注入。如果这种技术变得越来越有用，那么在模型中注入内容的好处也会越来越多。如果它访问某个网页，注入的内容可能是无害的，比如广告，也可能是有害内容，对吧？

Dario Amodei：是的，我们确实考虑了很多问题，比如垃圾信息、验证码、批量攻击等等。告诉你一个秘密：如果你发明了一项新技术，首先遇到的滥用情况不一定是最严重的，但通常是诈骗，特别是小规模的诈骗。这就像一种古老的现象，人们总是在互相欺骗，你每次都得应对这种情况。

Lex Fridman：这听起来几乎有点可笑，但确实如此，随着机器变得越来越智能，机器人和垃圾信息的问题也愈加严重，抵抗起来也越来越困难。

Dario Amodei：正如我所说，世界上有很多小规模的犯罪分子，每一项新技术都会成为这些人实施一些愚蠢而恶意行为的新工具。

对 AI 的监管

Lex Fridman：我想问一下监管问题。监管在保障人工智能安全方面发挥了什么作用？例如，能否描述加利福尼亚州的 AI 监管法案 SB 1047，该法案最终被州长否决？该法案的优缺点是什么？

Dario Amodei：我们曾对该法案提出了一些建议，部分内容被采纳。我们对此总体持积极态度，但它确实仍然有一些缺点，当然，最终该法案也被否决了。从整体来看，它的核心理念与我们的 RSP（风险缓解计划）相似。我认为，重要的是有某个管辖区能够通过类似的法规。我可以详细解释为什么这非常重要。我对我们的 RSP 很有信心，尽管它并不完美，还需要不断改进，但它促使公司认真对待这些风险，将其纳入产品规划，并成为 Anthropic 工作的核心内容，确保公司近千名员工了解这是公司最优先的事项之一。

但仍有一些公司没有 RSP 之类的机制，例如 OpenAI，谷歌在 Anthropic 几个月后也采用了这些机制，但其他公司根本没有这些机制。如果一些公司采取这些机制，而其他公司没有，这将导致一种局面：即便五家公司中有三家很安全，但另外两家不安全，仍会产生负面影响。我认为缺乏统一性对我们这些付出了巨大努力的人来说是不公平的。

此外，我不认为可以完全信任这些公司自愿执行这些计划。Anthropic 尽一切努力遵守自己的 RSP，但业界也有不少公司未履行承诺，比如没有按计划提供计算资源。我认为需要一个统一的标准来确保行业遵守其已经认同的重要准则，以保证行业整体的行为符合公众利益。

当然，有一部分人原则上反对监管，认为监管可能会带来过多负担，减缓创新。例如在欧洲可以看到像 GDPR 这样的条例，我理解他们的出发点，但我认为 AI 的情况不同。AI 的自我决策与滥用风险尤其严重，因此需要强有力的应对。

SB 1047 的一个问题，尤其是原始版本，是它在结构上确实包含了一些 RSP 的要素，但也加入了许多繁琐、不必要的负担，甚至在风险管控方面可能没有达到预期。社交媒体上的讨论常常只表现出对任何法规的支持或不实的反对论点，例如法规会导致企业迁出加州或破坏开源生态系统。这些论点大多是无稽之谈，但确实也有更理性的反对理由。Dean Ball 是一个很有学术水平的分析家，专注于研究法规的实际效果及其可能出现的设计缺陷。

我们始终认为在这一领域需要有相应的监管，但我们希望确保这种监管是有针对性的，专注于解决重大风险，并且切实可行。我认为，支持监管的人有时可能没有意识到的是，如果实施的法规不够精准，会浪费大量人力和时间，最终会让人们觉得这些安全风险是虚构的。例如，公司可能不得不雇佣十位律师填写表格，或者为了验证明显不危险的事项进行各种测试。经过几个月的这种浪费后，社会将产生持久的反监管共识。因此，设计不当的监管是那些希望看到真正问责的人最严重的敌人。我们必须精心设计并与有实际经验的人交流，以了解法规的真实效果。

如果这是一个不重要的问题，我可能会完全反对监管。然而，我希望反对者理解的是，这些潜在问题是真实而严重的，并非公司为了监管优势而虚构的科幻幻想。我们每几个月测量新模型的行为，发现它们在令人担忧的任务上表现得越来越好，与此同时也在经济上有价值的任务上不断进步。我希望 SB 1047 引发的极化现象能够缓解，希望一些理性反对者和支持者能坐下来共同探讨。

Anthropic 是少数对 SB 1047 持详细正面意见的 AI 公司，其他大公司如 Google、OpenAI、Meta 和 Microsoft 则坚决反对。我希望关键利益相关者能够坐下来商讨一个既能有效降低风险、又不会不必要地阻碍行业发展和创新的解决方案。不幸的是，观点的极化让这些群体未能进行应有的对话。我感到紧迫感，认为我们需要在 2025 年采取行动。如果到 2025 年年底我们仍然没有对此采取任何行动，我将会感到担忧。尽管目前风险尚未显现，但时间已不多了。而且我们需要避免那种极端的“强力支持安全”与“强烈反对监管”的对立言论。推特上充斥着这种激烈的论战，根本不会带来任何积极效果。

Lex Fridman：关于这个领域中的不同参与者，大家都很感兴趣。OpenAI 是最早的参与者之一，你在 OpenAI 有多年的经验，能谈谈你在那里的经历和历史吗？

Dario Amodei：嗯，我在 OpenAI 大约工作了五年。最后几年里，我担任研究副总裁，基本上是我和 Ilya Sutskever 一起确定了研究方向。大约在 2016 年或 2017 年，我开始真正相信，或者至少确认了我对“Scaling Hypothesis”的信念。那时，Ilya 对我说了一句广为人知的话：“你需要理解的是，这些模型就是想学习。模型只是想学习。”有时你会听到这样一句话，就像一则禅语，突然之间一切都明白了，解释了我所见过的无数现象。

从那时起，我脑海中一直浮现出这样一种画面：只要对模型进行正确的优化，并引导它们朝正确的方向前进，它们就会自动学习、解决问题，无论问题是什么。

Lex Fridman：所以就是不要干扰它们，对吧？

Dario Amodei：是的，不要把自己的学习方式强加给它们。这其实与 Rich Sutton 在《Bitter Lesson》和 Gwern 在“Scaling Hypothesis”中的观点相同。总体来说，我从 Ilya 及其他人那里获得了这种灵感，比如 Alec Radford，他是最初 GPT-1 的创造者。 GPT-2、GPT-3、RL 上都使用了 Human Feedback，这是一种尝试，

为了解决早期的安全性和稳定性问题，非常注重可解释性。这是安全性与扩展性的结合。大约在 2018 到 2020 年期间，我和我的许多合作者（其中一些后来成为 Anthropic 的联合创始人）一起真正形成了愿景，并推动了研究的方向。

Lex Fridman：你为什么离开？为什么决定离开？

Dario Amodei：我是这样看的，我觉得这与“向上的竞争”有关。在 OpenAI 的工作中，我逐渐认识到 Scaling Hypothesis 的重要性，并意识到安全性在 Scaling Hypothesis 中的作用。第一个方面（Scaling Hypothesis）是 OpenAI 逐渐认可的，而第二个方面（安全性）则一直是 OpenAI 宣传的一部分。然而，在多年工作中，我认为我对我们应该如何处理这些事情、我们应该如何在世界上展现自己、组织应该拥有什么样的原则有着独特的看法。你看，有很多关于公司应该这样做、公司应该那样做的讨论吗？那里有很多错误的信息。

外界有很多误解，人们说我们离开是因为我们不喜欢与微软的交易，这不是真的。尽管关于如何与微软达成协议的确讨论了很多，但我们并不是因为反对商业化而离开。我们参与了 GPT-3 的开发，它是用于商业化的模型。我参与了商业化。对我们来说，关键在于如何去做：人类社会正在走向更强大的人工智能，那么我们如何以谨慎、透明、诚实的方式去做，建立起信任？

我们需要有明确的愿景和正确的行动，不只是为了招募人才而谈论安全性。最终，如果你有自己的愿景，最好是去独立实现它，而不是去说服别人改变他们的愿景。你可能认为他们的方法不对，也许他们的方式确实不理想，但更高效的做法是带上一些信任的人，一起去实现你的愿景。

如果你的愿景令人信服，如果你能让它吸引人们，在市场上符合道德规范，如果你能创建一个人们愿意加入的公司，采取人们认为合理的做法，同时还能在生态系统中保持自己的地位，其他人就会效仿。

当你在推动某件事，尤其是当你做得比别人更好时，这比争论更有说服力。我认为，试图让别人的愿景变成自己的愿景通常是低效的。更有效的做法是独立开展一项明确的实验，声明“这是我们的愿景，这就是我们的做事方式。”对方可以选择忽略我们，拒绝我们的做法，或者开始更像我们。模仿是最真诚的赞美，这会反映在客户的行为、公众的反应以及人们选择工作的去向上。

归根结底，关键不在于谁赢了。如果我们或其他公司采取的某些做法真正吸引了人们的关注，而且我希望这种吸引力在于实质，而不仅仅是表面。我相信研究人员是明智的，他们关注的是实质。如果其他公司开始效仿这种做法，并因而取得成功，那就是好事，那就是一种成功。这就像是一场向上的竞赛，最终谁胜出并不重要，只要每个人都在效仿彼此的良好实践。

我们都害怕的是“向下的竞争”，因为在那种情况下，无论谁“赢”了，大家都会输。最极端的情况就是创造出自主 AI，使得机器反过来控制人类，虽然这是半开玩笑，但这确实可能是最糟糕的情况，那时领先的公司是谁已毫无意义。

如果我们能够创造出一种“向上的竞争”，让公司在良好实践上展开竞争，那么最终谁胜出并不重要，重要的是行业在更好的生态中运行。每个公司都可以在其中发挥作用。其他公司的一些个体也在推行类似的良好实践，我们有时会看到他们的好做法，并尝试效仿。

我们希望在推进良好实践方面更加积极，快速采用和创新这些实践。我觉得这种动态才是我们应该关注的，它超越了“谁赢了”、“谁信任谁”的问题。这些“戏剧性”的问题其实没那么重要，重要的是我们所在的生态系统以及如何改进它，因为这决定了所有参与者的行为。

Lex Fridman：所以 Anthropic 便是一个以实际 AI 安全性为核心的全新实验。

Dario Amodei：当然，我们在这个过程中也肯定犯了不少错误。没有完美的组织，我们要面对 1000 名员工带来的不完美，领导层的不完美，包括我自己，以及我们安排去监督领导层的不完美的人，比如董事会和长期利益信托。这一切都是由一群不完美的人组成，试图朝着一个永远无法完美实现的理想前进。这是我们选择的方向，也将一直如此。

但不完美并不意味着我们就放弃，因为还有更好的和更差的选择。希望我们能做到足够好，能开始建立一些整个行业都能参与的实践。我相信，多家公司将会取得成功。Anthropic 会取得成功，而我之前工作过的其他公司也会成功，其中有些可能会更为成功。但比这更重要的是，我们能将整个行业的激励机制调整一致。这部分通过“向上的竞赛”来实现，部分通过 RSP，以及有针对性的适度监管。

聘请一支优秀的团队

Lex Fridman：你提到“人才密度优于人才数量”。能解释一下吗？可以详细谈谈打造一支优秀的 AI 研究和工程团队需要什么条件吗？

Dario Amodei：这句话每个月都比上个月更加真实。每个月我都更加认同这一点。如果做个假设，比如你有一个由 100 人组成的团队，他们非常聪明、积极，并对公司使命高度认同，这就是你的公司。或者你有一个由 1000 人组成的团队，其中 200 人非常聪明、认同使命，而剩下的 800 人，比如说是大公司里随机选出的员工。那么你会选择哪个团队？

人才数量在 1000 人的团队中肯定更大。你确实拥有更多极具才华、对使命高度认同的员工。但问题在于，如果每个有才华的人环顾四周，看到的都是同样才华横溢、专注投入的同事，这会为整个团队奠定基调，激励每个人都全心投入，也让团队成员彼此信任。

如果团队规模扩大到 1000 或 10000 人，并且你无法精细筛选，只是随机选择一些人，那你就需要设置很多流程和限制，因为人们可能无法完全信任彼此，还可能引发各种政治冲突。这些因素都会降低组织的运转效率。

所以我们有近 1000 人，我们试图让这 1000 人中尽可能多的一部分人是超级人才、超级技术人才，这也是我们在过去几个月放缓招聘速度的原因之一。今年前七八个月，我们从 300 人增至 800 人，现在增速放缓，过去三个月从 800 人增至 900 或 950 人左右。具体人数可能不准确，但我们觉得 1000 人是一个关键点，所以希望更加谨慎地扩展团队。

从一开始到现在，我们招聘了很多物理学家。理论物理学家学习新事物的速度很快。最近的招聘中，我们对研究和软件工程两方面都设定了很高的门槛，招聘了许多资深人士，包括曾在本领域其他公司工作的人才。我们一直保持着非常严格的筛选标准。

很容易将团队规模从 100 人扩展到 1000 人，甚至到 10000 人，而忽略确保每个人都有一个统一的目标。团队目标一致的力量非常强大。如果公司内存在各自为政的小团队，各自为自己的目标进行优化，就很难实现任何重要的目标。但如果每个人都看到公司的宏大愿景，彼此信任，专注于做正确的事情，这就是一种“超能力”。我认为这种凝聚力几乎可以克服所有其他劣势。

Lex Fridman：正如乔布斯所说，顶尖人才希望周围也都是顶尖人才。从某种意义上来说，这是同样的道理。我不知道这是不是人性的一部分，但看到那些不专注于共同目标的人会让人感到失望；而看到一群人全心投入时则极具激励作用。这很有趣。从你与这么多优秀人才共事的经历来看，成为一名出色的 AI 研究员或工程师需要具备什么素质呢？

Dario Amodei：我认为，尤其是在研究方面，但实际上在各方面，最重要的品质是开放的心态。听起来开放心态似乎很简单，对吧？就像是“哦，我对任何事都很开放”。但如果回顾我在“扩展假设（Scaling Hypothesis）”上的早期经历，我看到的数据和其他人看到的一样。和我共事的几百人，我并不是比他们更好的程序员，我也不认为自己更擅长提出研究想法。某些方面来说，我甚至更差。比如，我从没擅长精准编程、找错误、写 GPU 核心代码。这里有 100 个人在这些方面比我做得好得多。

但我认为我与众不同的地方在于，我愿意用新的眼光看待事物。人们会说：“哦，我们还没有找到合适的算法，还没有找到正确的方式。”而我则想着：“这个神经网络有 3000 万个参数。如果我们给它 5000 万个参数会怎么样？让我们绘制一些图表。”这是基本的科学思维：我看到一个可以改变的变量，想看看变化会带来什么结果。我们尝试了不同的事情，绘制了图表。

这简直是世界上最简单的事情，不是博士级别的实验设计，而是非常简单的想法。任何人如果知道这件事重要，都可以做到。理解它并不难，不需要是天才才能想到。但把这两者结合起来，极少数几个人就推动了整个领域的发展。

通常历史上的发现就是这样，常常是这种情况。所以，开放的心态和用新视角观察事物的意愿往往源自对领域的陌生，反而经验有时会成为一种障碍。这是最重要的特质，虽然很难去寻找和测试，但当你发现某种全新的思维方式并有主动性去探索时，结果是极具变革性的。

Lex Fridman：并且能够进行快速实验，保持开放和好奇的态度，用全新的眼光看待数据，看看它到底传达了什么。这同样适用于机制可解释性。

Dario Amodei：这是另一个例子。一些早期的工作和机械解释非常简单，以前没有人想过要关心这个问题。

Lex Fridman：你说过要成为一名优秀的 AI 研究人员。那么我们回顾一下，如果有人对 AI 感兴趣，你会给他们什么建议？他们年轻，对未来充满期待，想要在世界上产生影响。

Dario Amodei：我认为我最重要的建议就是直接开始玩这些模型。其实我有点担心，现在这建议似乎显而易见了。我想三年前，人们的起点通常是，“哦，我去读最新的强化学习论文”。虽然这依然值得去做，但现在有了更广泛的模型和 API，越来越多人开始直接使用它们。我觉得实际的体验非常重要。这些模型是全新的东西，没有人完全理解它，所以获得实践经验是关键。

我还想说，要在新的方向上进行探索。有很多未被挖掘的领域。比如，机制可解释性还很新，研究这个领域可能比设计新模型架构更有价值。尽管它比以前更受欢迎，但也许只有 100 人在研究它，而不是 1 万人。这是一个研究的富饶领域，有很多“低垂的果实”可以采摘。奇怪的是，很多人还没有对这个领域产生足够的兴趣。

在长时间任务和长期学习方面也有很多工作要做。评估技术仍然处于早期阶段，尤其是对于现实世界中的动态系统的评估。我认为 multi-agent 方面也有值得关注的东西。我的建议是“滑向冰球要去的方向”，预判未来的发展趋势。

想到这一点并不需要天才。很多将在未来五年变得令人兴奋的领域，现在大家已经在谈论它们，几乎成了“常识”。但不知为何，人们总是不过分投入，或者害怕做不流行的事情。我不知道为什么会这样，但克服这种障碍是我给出的最重要的建议。

Post-training

Lex Fridman：我们来谈谈训练后的调优吧。现在的调优方案似乎有很多元素，包括监督微调、RLHF（强化学习人类反馈），然后还有大量合成数据，或者说在寻找高质量合成数据的方式。所以如果这是让 Anthropic Claude 变得如此强大的“秘方”，其中有多少“魔法”来自预训练，又有多少来自后训练？

Dario Amodei：嗯，首先，我们自己也无法完全准确地衡量这一点。有时你会发现一个角色特性很好，但难以分辨它是源自预训练还是后训练。我们尝试开发了方法来区分这两者，但还不完美。其次，我想说的是，虽然我们在强化学习方面总体表现不错，也许算是最好的吧，但我也不确定，因为我不知道其他公司内部的情况。通常情况下，这并不是因为我们有其他公司没有的“神秘魔法方法”。通常更像是我们在基础设施方面做得更好，因此可以运行更长时间，或者我们获得了更高质量的数据，或者更好地过滤了数据，或者能更有效地结合这些方法。这通常是一些无聊的实践和专业技能。

所以，当我考虑如何在训练这些模型方面做出独特成就时，无论是预训练还是后训练，我更倾向于将其看作是设计飞机或汽车的过程。这不仅仅是有一张设计图就能造出下一代飞机。更重要的是我们对设计过程的思考方式是一种文化上的专业技能，这比我们能够发明的任何特定小玩意都重要。

Lex Fridman：好的，那让我问问具体的技术。首先是关于 RLHF（强化学习人类反馈），从广义上来说，你认为 RLHF 为什么这么有效？

Dario Amodei：回到 Scaling Hypothesis 的一种实现方式上，如果你在一个任务上投入足够的计算资源，就能实现该任务目标。而 RLHF 擅长让模型做出人们希望的事情，或者更精确地说，它让模型产生人类在短时间内看过多个可能响应后更倾向选择的答案。这在安全性和能力方面并非完美，因为人类往往无法完全识别出模型的意图，并且而人类此刻想要的可能不是他们长期想要的，因此这有很多微妙之处。但这些模型确实能很好地生成一些“浅层”上人们希望的输出。

实际上，这并不需要大量计算资源，因为有一个因素在起作用，即一个强大的预训练模型可以实现任何目标。一旦有了预训练模型，你就有了让模型达到你想要的目标所需的所有表示。

Lex Fridman：那么，你认为 RLHF 是让模型“更聪明”了，还是只是让它“看起来更聪明”？

Dario Amodei：我不认为 RLHF 让模型更聪明。我也不认为它只是让模型看起来更聪明。RLHF 更像是在人类和模型之间架起了一座桥梁。你可以拥有一个非常聪明但无法沟通的模型，我们也都知道这种类型的人，特别聪明，但我们难以理解他们在说什么。所以我认为 RLHF 架起了这种桥梁。当前使用的强化学习方法（RLHF，即强化学习人类反馈）并非唯一的方式。在未来，还可能会出现其他不同的强化学习方法。我认为 RL 有可能让模型变得更聪明，使它们的推理更好，表现更优，甚至发展新的技能。或许在某些情况下这可以通过人类反馈实现。但我们今天使用的 RLHF 大多还没有做到这一点，尽管我们正在快速接近这个目标。

Lex Fridman：但它确实在“帮助性”指标上有所提升，对吧？

Dario Amodei：它也增加了某种解放模型的效果，正如 Leopold 的一篇文章里提到的“解锁（unhobbling）”，模型被限制住了，然后通过各种训练方式去解锁它们。我喜欢这个词，因为它很少见。所以我认为 RLHF 在某些方面解放了模型。当然，仍然有其他尚未解放的方面。

Lex Fridman：从成本角度来说，预训练是最昂贵的部分吗？还是说后训练的成本逐渐接近了？

Dario Amodei：目前预训练仍然是主要成本。我不确定未来会如何，但可以想象未来后训练可能成为主要成本。

Lex Fridman：在你设想的未来，后训练的成本会主要来自人类还是 AI？

Dario Amodei：单纯依靠人类的参与是难以大规模地提高质量的，尤其是在需要大量计算的情况下，它必然需要依赖某种可扩展的超空间方法，比如争辩法或迭代放大等。

Lex Fridman：关于 Constitutional AI，您能否描述一下它是什么？最早是在 2022 年 12 月的论文中提到的内容，以及更进一步的理解是什么？

Dario Amodei：是的，这是两年前提出的基本概念。首先，RLHF 方法中，您有一个模型，它生成两个不同的回答。然后，你会问人类：“你更喜欢哪个回答？”或者另一种方式是，“请在 1 到 7 的范围内为此回答打分。” 这种方法的难点在于需要大量的人类参与，且反馈比较隐性。我对模型应该如何回应并没有清晰的概念，我只能知道千人平均的偏好。

于是有了两个想法。第一，能否让 AI 系统自行决定哪个回答更好？即展示两个回答给 AI 系统，并询问哪个更优。第二，用什么标准来判断？这里就引入了“Constitutional ”的概念，即一个文档，其中列出模型应遵循的原则。AI 系统会读取这些原则，再结合环境和回答来判断模型的表现。

这是自我博弈的一种形式，模型与自身互动，通过 AI 的反馈优化偏好模型，从而进一步提升 AI 的表现。这样形成了 AI、偏好模型和 AI 改进三者的闭环。

Lex Fridman：Constitutional 中的原则是人类可以理解的。

Dario Amodei：是的，Constitutional 的内容对人类和 AI 系统都具备可读性，有种对称性。在实际应用中，我们使用了模型宪法和 RLHF 等多种方法，使得 RLHF 的需求降低，并增加了每个 RLHF 数据点的价值。Constitutional AI 有助于提升模型的稳定性，我们也期待未来的其他基于推理的强化学习方法。它是工具箱中的一种重要工具。

编程

Lex Fridman：我认为 AI 的进步甚至在今天就已经在改变世界，而随着未来的强大实用型 AI 的发展，编程可能会变得更加不同。您如何看待编程的本质变化？因为它与构建 AI 的实际过程如此紧密相连。这对我们人类有什么改变？

Dario Amodei：我认为这是变化最快的领域之一，有两个原因。首先，编程是与 AI 构建过程非常贴近的技能。一项技能与构建人工智能的人距离越远，被人工智能颠覆所需的时间就越长。我坚信人工智能将颠覆农业。也许它在某些方面已经做到了，但这与构建人工智能的人距离还很远，所以我认为这将需要更长的时间。而编程则是 Anthropic 公司和其他公司中很大一部分员工的核心技能，因此会变化得更快。第二个原因是编程中的闭环问题。在训练和应用模型时，模型可以编写代码，也可以运行代码，然后查看结果并对其进行解释。因此，模型在编程方面的闭环能力远胜于硬件或生物学，这将使模型在编程方面迅速提升。

例如，我看到模型在实际编程任务上的表现，从今年 1 月的 3%到 10 月提升至 50%。所以我们处于 S 曲线上，很快就会开始放缓，因为你只能达到 100%。但我猜再过 10 个月，我们可能会非常接近。我们至少会达到 90%。尽管我不确定确切的时间，但预计在 2026 或 2027 年，AI 可以处理绝大多数编码任务。

我猜测，对于大多数程序员所从事的工作类型，如果我们把任务范围缩小到“仅仅编写代码”，AI 系统可能会胜任这一任务。尽管如此，我认为比较优势的作用依然显著。当 AI 能够完成程序员 80%的工作，包括大部分根据给定规范编写代码的任务时，剩下的工作将更加适合由人类来完成。人类将更多地参与高层次的系统设计、应用架构的合理性、设计和用户体验等方面，最终 AI 也会逐步胜任这些工作。

这是我对强大 AI 系统的愿景。但我认为，在比我们预期更长的时间里，人类所从事的少量工作内容将会扩展并填满整个岗位，以提高整体生产力。我们曾见过类似的情况。过去写作和编辑信件十分困难，印刷工作也很麻烦。然而，当文字处理器和计算机普及后，内容生产和共享变得非常便捷，人们的关注点也转向了创意。这种比较优势的逻辑将小部分任务扩展为大部分任务，并通过创造新任务来提升生产力，我认为这种情况还会继续。

未来某一天，AI 可能会在所有方面优于人类，那时这种逻辑将不再适用，人类将需要集体思考如何应对这种情况。我们每天都在考虑这个问题，这是除滥用和自主性以外的另一个需要严肃对待的重要问题。但我认为在短期内，甚至可能在中期（大约 2 到 4 年内），人类仍然会在编程中扮演重要角色。编程的性质会发生变化，但编程作为职业不会消失，只是会变得不再需要逐行编写代码，而是更多地关注宏观设计。

Lex Fridman：我很好奇 IDE 的未来会是什么样子。关于与 AI 系统交互的工具，也许特定领域，比如我们提到的生物学领域，可能也需要自己的工具来提高效率。同样，编程也需要专门的工具。Anthropic 会在这方面涉足工具的开发吗？

Dario Amodei：我坚信强大的 IDE 有很多唾手可得的成果，就像你跟模型对话，模型会回应你一样。但看， IDE 擅长进行大量静态分析，静态分析可以实现很多功能，比如你甚至无需编写代码就可以找到许多错误。此外，IDE 可以执行特定任务，组织代码、测量单元测试的覆盖率。传统 IDE 已经能实现很多功能。而现在再加上模型能够编写和运行代码，我坚信即使在未来一两年内模型质量不再提高，也有巨大的机会提升人们的生产力，比如抓取一堆错误，替人们做很多琐碎的工作，我们还远未挖掘出它的全部潜力。

至于 Anthropic 本身，未来的发展难以预测。目前我们并不打算自己开发这样的 IDE，而是为一些公司提供支持，比如 Cursor、Cognition 以及其他一些在安全领域的公司，另有一些基于我们的 API 开发类似产品的公司。我们的观点是“百花齐放”，我们内部没有资源去尝试所有不同的方向，不如让我们的客户去尝试，我们会看到哪些成功，或许不同客户会以不同方式取得成功。所以我认为这很有前景，但 Anthropic 目前并不急于，也可能永远不会在这一领域与我们的客户竞争。

Lex Fridman：是的，观察 Cursor 如何成功集成 Claude 的过程很有趣，这在许多方面确实能提升编程体验，不那么简单。

Dario Amodei：确实令人惊叹。作为 CEO，我并没有那么多时间编程，我感觉如果六个月后我再回来，整个编程体验可能会让我完全认不出来。

生命的意义

Lex Fridman：在这个超级强大的人工智能日益自动化的世界里，我们人类的意义何在？工作对我们很多人来说是深刻的意义来源，那么我们应该从哪里找到意义呢？

Dario Amodei：其实，我在一篇文章中谈到过这个问题（文章是“Machines of Loving Grace：How AI Could Transform the World for the Better”，https://darioamodei.com/machines-of-loving-grace）。本来这篇文章只打算写两三页，在员工大会上简单聊聊，后来我意识到这是一个重要但未充分探讨的主题，于是越写越多。最终，这篇文章膨胀到了四五十页。当我写到关于工作和意义的部分时，我想，哦，这样下去可能得写到一百页了，所以我只能另写一篇文章来深入探讨。

说到意义，想象一下一个人生活的过程，比如把我放在一个模拟环境中，我有工作，有目标，为之奋斗了六十年，后来你告诉我，其实这一切都是游戏，那会剥夺掉整个过程的意义吗？似乎不会。我仍然做出过重要的决定，承担过牺牲，积累了许多技能。再比如，想象历史上发现电磁学或相对论的科学家，如果告诉他们，早在两万年前某个外星人已经发现了这一切，那会否定他们发现的意义吗？我认为不会。过程本身才是关键，它展示了一个人在过程中如何成长、如何与他人联系、如何做出决定。

我可以想象，如果在 AI 世界中我们处理不当，可能会导致人们失去任何长期的意义来源，但这更像是我们自己的一种选择，是基于这些强大模型的社会架构设计。如果我们设计得不好、过于浅薄，那么这种情况就可能发生。

此外，当前大多数人的生活，尽管他们努力寻找生活的意义，但实际上仍然有许多人艰难谋生。我们这些拥有特权并开发这些技术的人，应该对世界上那些努力维持生计的人有同理心。如果我们能将技术的收益广泛分配，他们的生活会大大改善。意义对他们依旧重要，但我们不能忘记这一点。事实上，认为意义是唯一重要的东西的想法，在某种程度上只是一小部分经济富裕的人的产物。

总之，我认为强大 AI 的未来世界不仅能让每个人找到生活的意义，而且可能让每个人的生活更加有意义。AI 能让我们体验到一些原本不可能或仅为少数人所享的世界和体验。我更担心的是经济问题和权力集中。AI 会增加世界中的权力，如果这种权力被集中并滥用，后果将是灾难性的。

Lex Fridman：我强烈鼓励大家阅读这篇完整的文章，或许它可以扩展成一本书或一系列文章，因为它描绘了一个非常具体的未来。我注意到文章的后半部分越来越简短，可能是因为你意识到如果继续写下去，这篇文章会变得非常长。

Dario Amodei：是的，一方面我意识到篇幅会很长，另一方面，我也非常努力避免成为那种对一切事物都自信满满、总是发表观点的人。我尽量避免这种情况。但不得不承认，当我写到生物学部分时，我并不是专家，尽管我表达了不确定性，可能还是说了些不准确的内容。

Lex Fridman：我对你所描绘的未来感到兴奋，感谢你为此努力奋斗，也感谢你今天的分享，Dario。

Dario Amodei：谢谢你的邀请。我只希望我们能够正确地实现它。如果我有一个信息要传递，那就是，为了让这一切成为现实，我们不仅需要建立技术、公司和围绕这些技术的经济体系，还需要解决这些技术带来的风险，因为这些风险就像路上的地雷，只有解除它们，我们才能到达彼岸。这就像生活中的一切，都是需要平衡的。

Lex Fridman：感谢大家收听与 Dario Amodei 的对话。

原访谈视频链接：

https://www.youtube.com/watch?v=ugvHCXCOmm4&t=2286s

创作场景

Anthropic 创始人访谈：与 Altman 分道扬镳不是因为商业化、scaling law 不会撞墙、未来将放缓招聘步伐