已卷疯！距上次更新仅隔三月，Anthropic 又发布 Claude 3.5 Sonnet，可是生成笑话得靠抄袭？

整理 | 傅宇琪、核子可乐

本周四，Anthropic 宣布推出其最新 AI 语言模型 Claude 3.5 Sonnet，这是基于 3 月发布的 Claude 3 基础模型构建的全新“3.5”模型家族的首位成员。Claude 3.5 能够撰写文本、分析数据并编写代码，拥有长达 20 万 token 长上下文窗口的 Claude 3.5，目前已经在 Claude 网站及 API 上对外开放。随后，亚马逊云科技宣布 Claude 3.5 Sonnet 正式在 Amazon Bedrock 可用。

从目前的市场表现来看，Anthropic 的新成果似乎得到了外部用户的广泛好评。独立 AI 研究员 Simon Willison 在 X 上写道，“这套模型真的非常出色。它速度更快、价格只有 Opus 的一半，但性能却实现了类似从 GPT-4 Turbo 到 GPT-4o 的飞跃，因此我愿称之为最好的新款整体模型。”

性能超越 GPT-4o？

根据 Anthropic 的介绍，Claude 3.5 Sonnet 在部分基准测试（包括涵盖本科阶段知识的 MMLU、小学数学问题的 GSM8K 以及编程技能的 HumanEval）上的表现，已经等同甚至超越了 GPT-4o 及 Gemini 1.5 Pro 等市面上的顶尖竞争对手。

以两倍的速度实现先进的智能水平

Claude 3.5 Sonnet 具备先进的智能水平，运行速度可达到 Claude 3 Opus 的两倍，在具有研究生水平的推理能力（GPQA）、本科水平知识（MMLU）和编程能力（HumanEval）方面设立了新的行业基准；在理解细微差别、幽默和复杂指令方面表现有显著的提升；在撰写高质量内容时能表现出更自然、更易理解的语气，生成引人入胜和有说服力的内容，简化写作工作流程，提升叙事能力。

Claude 3.5 Sonnet 非常适合处理复杂任务，加上性能的提升与出色的成本效益，使其成为应对包括敏感语境的客户支持和协调多步骤工作流程编排的理想选择。

在内部代理编码评估中，Claude 3.5 Sonnet 解决了 64% 的问题，超过了解决 38% 问题的 Claude 3 Opus。我们通过评估测试了该模型在给定自然语言描述过程中的改进，包括修复漏洞或添加功能到开源代码库的能力。当给予提示并提供相关工具时，Claude 3.5 Sonnet 可以独立编写、编辑和执行代码，并具备出色的复杂推理和故障排除能力。它能够轻松处理代码翻译，在更新已有的应用程序和迁移代码库方面表现优异。

极其先进的“视觉”能力

Claude 3.5 Sonnet 模型“具备”极其强大的“视觉”能力，在标准视觉基准测试中超过了 Claude 3 Opus。这些显著的进步在处理视觉推理的任务中极为明显，如解释图表、图片及其他需求。Claude 3.5 Sonnet 可以准确地从不完美的图像中转录文本，这对于零售、物流和金融服务等领域客户尤为重要。在这些领域，生成式 AI 从图像、图形或插图中能获得比单纯文本中更多的洞察。

Claude 3.5 Sonnet 还可以用于自动化视觉数据处理任务，提取有价值的信息，增强医疗保健、金融服务、媒体和娱乐工作负载中的数据分析。

对安全性和隐私的承诺

Claude 模型经过了严格的测试和训练，以减少滥用。虽然 Claude 3.5 Sonnet 在智能方面实现了质的飞跃，但 Anthropic 的红队 (red team，安全团队，最大化模拟真实世界的攻击) 评估得出结论，Claude 3.5 Sonnet 仍处于 ASL-2 （AI Safety Levels）级别。

履行对安全性和透明度的承诺，Anthropic 与外部专家合作，不断测试并完善这一最新模型的安全机制，并于最近向英国人工智能安全研究所提供了 Claude 3.5 Sonnet 部署前的安全评估。英国人工智能安全研究所完成对 Claude 3.5 Sonnet 的测试后，与美国人工智能安全研究所共享了测试结果。

当考虑到滥用的问题时，Anthropic 还整合了外部专家的政策反馈，以确保评估的可靠性。外部资源的参与帮助团队提升了评估 Claude 3.5 Sonnet 时对各种滥用类型的判断能力。

引入新功能后更具性价比

对于普通用户来说，3.5 版本中更值得关注的可能当属名为“Artifacts”的新增界面功能，它允许人们在对话的同时，在专用窗口中与 Claude 生成的内容（例如代码、文本和网页设计）进行交互。这一新功能也能够帮助人们在长时间会话中暂且搁置部分事情，而不必担心内容丢失。同时，Anthropic 将 Artifacts 视为推动 Claude.ai（其网页界面）成为团队协作工作空间的第一步。

“Artifacts”界面示例。向 3.5 Sonnet 下达了一项编写小游戏的任务，它创建出了能够实际运行的 Python 代码，代码结果就显示在聊天记录右侧的全新“Artifacts”窗口当中。

Anthropic 表示，Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。在性能大致相当的情况下，3.5 的成本也更低廉——在 API 中，新的 3.5 模型每百万输入 token 定价 3 美元，每百万输出 token 定价 15 美元。相比之下，Opus 每百万输入 token 定价 15 美元，每百万输出 token 定价 75 美元。

除了网站和 API 之外，Claude 3.5 Sonnet 还可以通过 Claude iOS 应用程序提供访问，付费用户将获得更高的用量上限。同时，该模型也通过亚马逊 Beckrock 服务及 Google Cloud 的 Vertex AI 平台对外开放。

试用感受

在测试中，Claude 3.5 Sonnet 似乎的确是一套称职且领先的 AI 语言模型。它的输出速度非常快，而且在相对随意的非严谨测试当中，3.5 Sonnet 以相当不错的表现回答了“Magenta 问题”。

当被问到“如果不存在 Magenta 镇，「Magenta」（洋红色）一词还会被用于命名颜色吗？”时，Claude 3.5 Sonnet 给出了以上输出。这种颜色的确以一场战役命名，而这场战役正是在意大利的 Magenta 镇上打响。

Claude 3 Opus 面对同一问题做出的回答。

Claude 2 面对同一问题做出的回答。

要求 Claude 3.5 Sonnet 编写五个关于爸爸的原创笑话，但感觉好像有抄袭的涉嫌。当我们提出质疑后，它又从互联网上抄了另外几个笑话。

Claude 3.5 Sonnet 输出的五个关于爸爸的原创笑话。

大语言模型的所谓智能实际上只是对其训练数据范围的延伸。要想在大模型已经消化的主题之上实现正确的“推理”（即根据存储在其神经网络中的数据 0 合成出新的排列），往往离不开人类的参与和引导。

Anthropic 计划在 2024 年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus 等 3.5 家族新成员。此外，该公司还在探索如何将新功能与企业应用需求相集成，从而对 Claude AI 平台做出进一步更新。

参考链接：

https://arstechnica.com/information-technology/2024/06/anthropics-latest-best-ai-model-is-twice-as-fast-and-still-terrible-at-dad-jokes

创作场景