报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

中文比 R1 丝滑、玩宝可梦还贼溜?全球首个混合推理模型 Claude 3.7 Sonnet 太惊艳,网友直呼“孤独求败”!

  • 2025-02-25
    北京
  • 本文字数:4060 字

    阅读完需:约 13 分钟

大小:1.93M时长:11:12
中文比R1丝滑、玩宝可梦还贼溜?全球首个混合推理模型Claude 3.7 Sonnet太惊艳,网友直呼“孤独求败”!

当地时间 2 月 25 日,Anthropic 正式发布了 Claude 3.7 Sonnet,“这是迄今为止我们最智能的模型,也是市场上首个混合推理模型。”Anthropic 官方表示。

 

简单来说,Claude 3.7 Sonnet 既能提供近乎即时的响应(标准模式,standard),也可以向用户直观展示其长时间的逐步思考过程(扩展思考模式,extended thinking)。API 用户还可以对模型的思考时长进行细粒度控制。

 

简而言之,该模型最大的特点就是用户能控制模型在做出反应前“思考”的时间,这是一项前所未有的技术创新。

 

Claude 3.7 Sonnet 现已全面登陆所有 Claude 订阅服务,包括免费版、专业版、团队版和企业版——以及 Anthropic API、Amazon Bedrock 和谷歌云 Vertex AI 平台。除免费版 Claude 外,扩展思考模式在所有版本中均可使用。

 

无论是标准模式还是扩展思考模式,Claude 3.7 Sonnet 都保持了与之前版本相同的定价标准:3 美元/每百万输入 token,15 美元/每百万输出 token——该费用已包含思考 token 的消耗成本。

 

Anthropic 表示,自己开发 Claude 3.7 Sonnet 的核心理念与市场上其他推理模型截然不同。“正如人类用同一个大脑既进行快速反应又进行深度思考,我们认为推理能力应该是前沿模型的集成能力,而非完全独立的模型。这种统一方法也为用户创造了更无缝的体验。”

 

而 Claude 3.7 Sonnet 则通过以下方式体现这一理念:

 

  • 首先,该模型集普通大型语言模型与推理模型于一体。用户可以选择何时需要模型即时响应、何时需要它经过更长时间思考后再作答。在标准模式下,Claude 3.7 Sonnet 代表着 Claude 3.5 Sonnet 的升级版本;而在扩展思考模式下,它会在回答前进行自我反思,从而显著提升在数学、物理、指令遵循、编程等多领域的表现。Anthropic 发现,模型的提示方式在两种模式下基本通用。

 

  • ‌其次,通过 API 使用 Claude 3.7 Sonnet 时,用户可自主控制模型的“思考预算(budget for thinking)”:用户可指定 Claude 的思考过程不超过 N 个 token(N 最高可达 128K token 的输出上限)。这一机制允许用户在回答质量与推理速度(及成本)之间进行灵活权衡。

 

  • 最后,在开发推理模型的过程中,Anthropic 战略性地略微减少了对数学/计算机科学竞赛类题目的专项优化,转而将研发重点投向更能体现企业实际需求的现实任务,这些任务更能真实地反映大模型在业务场景中的应用方式。

 

Claude 3.7 Sonnet 在编码和前端网页开发领域展现出尤为突出的改进。同步推出的还有专为代理式编码设计的命令行工具 Claude Code。Claude Code 现以限时研究预览版形式开放,使开发者能够直接在终端界面上将大量工程任务委派给 Claude 来完成。

 

Anthropic 如何进行推理

 

Anthropic 的扩展思考模式不是通过切换到不同策略模型上实现的,而是让同一个模型有更多思考时间和计算资源。

 

Claude 3.7 Sonnet 受益于 Anthropic 称之为“动作扩展(action scaling)”的增强能力,这种改进使其能够迭代式调用函数、响应环境变化并持续执行直到完成开放式任务。此类任务的典型案例是计算机操作:Claude 可发出虚拟鼠标点击和键盘敲击指令来代替用户解决问题。相较于前代版本,Claude 3.7 Sonnet 在计算机使用任务中可分配更多操作轮次(以及更长时间与算力资源),其执行结果通常也会更出色。

 


OSWorld 评估(该基准用于衡量多模态 AI 代理的能力),Claude 3.7 Sonnet 初始表现略有优势,但随着模型持续与虚拟计算机的交互,其性能差距会随时间逐渐扩大

 

此外,Anthropic 将 Claude 的扩展思考模式与智能体训练协同作用,意外地在场景应用中实现了突破性提升。

 

以运行 Game Boy 经典游戏《Pokémon Red》为例:Anthropic 为 Claude 配置基础记忆模块、屏幕像素输入接口及按钮操作函数调用,使其突破常规上下文限制,通过数万次交互维持游戏进程。

 

下图对比显示,未搭载扩展思考模式的 Claude Sonnet 旧版本(如 Claude 3.0 Sonnet)在游戏初期即陷入停滞,甚至未能走出故事开始所在的 Pallet Town。然而,Claude 3.7 Sonnet 改进后的智能体大大推进了游戏进程,成功挑战了三位宝可梦道馆馆主(游戏中的首领)并赢得徽章。Claude 3.7 Sonnet 善于通过多策略验证与预设条件动态修正机制,在游戏进程中持续优化自身行为能力。

 


Claude 3.7 Sonnet 启用推理能力时会采用“串行测试时计算(serial test-time compute)”机制,即在生成最终输出前,执行多个连续的推理步骤,通过动态叠加计算资源方式来实现深度思考。这种机制通常以可预测的方式提升性能:例如数学问题的准确率与允许采样的“思维令牌(thinking tokens)”数量呈对数增长关系。

 

Anthropic 研究团队还在探索通过“并行测试时计算(parallel test-time compute)”来提升模型性能。该方法核心机制为:并行采样多个独立思维链,在未知正确答案的前提下选取最优解。典型实现路径包括:多数/共识投票机制‌:将高频出现的结果判定为最优解;自检优化机制‌:调用辅助语言模型(如第二个 Claude)进行工作校验,或通过训练评分函数实现质量评估。



在 GPQA 评估中通过使用并行测试时计算拓展取得了显著改进

 

与各大主流模型对比,性能如何?

 

基准数据支持了 Anthropic 的雄心壮志。在扩展思考模式下,Claude 3.7 Sonnet 在研究生级推理任务上实现了 78.2% 的准确率,挑战了 OpenAI 的最新模型,并超越了 DeepSeek-R1。

 


人工智能模型对比显示,Claude 3.7 Sonnet 在各项任务中的表现均优于其前代产品,其扩展思考能力显著提升。(来源:Anthropic)

 

在数学解题(MATH 500)方面,Claude 3.7 Sonnet  64K 扩展思考模型表现优异,及格率较上代模型有了很大提升,但仍不及 OpenAI o1、OpenAI o3-mini High、DeepSeek R1 32K Extended Thinking。

 


值得一提的是,Claude 3.7 Sonnet 在编程领域的表现尤为突出。Claude 3.7 Sonnet 只借助 bash 编辑器工具和 “思维工具” 进行单次尝试修补,不额外花时间计算时,通过率能达到 62.3%。要是用上内部评分和自定义框架这些 “特殊手段”,通过率直接涨到 70.3% 。

 

OpenAI 的 o1 模型通过率是 48.9%,o3-mini (high) 通过率为 49.3%,但和 Claude 3.7 Sonnet 比还有一些差距。DeepSeek R1 的通过率是 49.2% ,表现同样不如 Claude 3.7 Sonnet。

 

这么一对比就能发现,在这次 SWE-bench Verified 编程测试里,不论是正常测试,还是用了优化方法之后,Claude 3.7 Sonnet 的成绩都优于其他模型。这就说明它在处理软件工程项目相关的编程任务时,能力更强,能满足更多的编程需求。

 

网友怎么看?

 

Claude 3.7 的发布在 Hacker News 上引发了热议。有用户赞扬 Claude 的简洁易用,为其工作和学习提供了很多帮助。只是服务的稳定性较差,希望可以改进服务。

 

“Claude 是我在学习大模型课程时的首选工具。虽然听起来可能有点老套,但它确实极大地扩展了我的学习范围。现在,我正在尝试阅读一些古老的哲学文本(我没有任何相关背景),如果没有 Claude 的帮助,我早就放弃了。它能够用简单的语言解释那些晦涩难懂的内容,和我讨论其中的思想,提供历史背景,解释作者的写作意图,并将这些古老的思想与现代观点进行对比。

 

在工作中,我每天都会多次使用 Claude 来辅助开发。与其他大模型相比,它的简洁模式让我感到非常舒适。它帮助我在外部代码库中发现错误,向我解释技术栈,编写 Bash 脚本,为我节省了大量的时间和精力。它让我能够完成那些因为时间紧张而无法完成的任务。

 

唯一的缺点是它的服务稳定性比其他工具稍差一些,有时我不得不切换到其他服务。这个问题可能不太好解决,但我还是想问:是否有计划改进这一点?”

 

还有用户称 Claude 在编程方面优势太明显了,甚至改变了自己的生活和工作方式。

 

“在编码方面,Claude 的一个显著优势是,当你通过网页界面使用它时,它不依赖于检索增强生成(RAG)。虽然这会消耗更多的 token,但模型能够直接看到所有内容,从而以更高质量的方式回复。

 

我想知道,Claude Code 是否也采用了类似的方式,只是改用了文档级别的 RAG?也就是说,如果一个文档是相关的,并且适合上下文窗口,那么整个文档都会被加载进去。如果是这样,那就太棒了!这也意味着将大型代码库拆分为更小的、可管理的文件会变得越来越有意义。

 

最后,我想对 Claude Sonnet 表达由衷的感谢。在过去的几个月里,它彻底改变了我的工作方式,让我能够完成更多的事情。非常感谢!”

 

Claude Code 团队的 Boris 在 Hacker News 上在线给网友答疑,他表示:“Claude Code 目前不使用 RAG。我们在测试中发现,对于人们使用 Code 进行的事情,Agentic Search 的表现优于 RAG。”

 

阿里不经意间“接招”了?

 

恰巧,阿里云 Qwen 团队也在今天推出了全新推理模型系统"深度思考(QwQ)",该系统由处于测试阶段的 QwQ-Max-Preview 驱动。据介绍,该 AI 架构基于 Qwen2.5-Max 模型进行深度优化,也在在数学解析、代码生成和智能体开发等领域展现出显著提升的认知能力与创新思维。

 


该预览版本整合了双重功能模块:一方面构建了深度推理引擎,另一方面接入了实时网络信息检索接口。在交互设计上,系统采用了类似 Claude Artifacts 的多窗口界面方案,通过独立内容展示区实现创作过程与主对话流的分离式呈现。

 

在功能扩展性方面,QwQ 系统实现了模块化工具调用机制,现已支持图像合成、动态二维码生成、实时气象数据获取等多样化服务,并具备多工具并行调用能力。开发团队透露,正式版 QwQ-Max 将同步推出移动端应用程序(涵盖 Android/iOS 平台),且计划依据 Apache 2.0 开源协议向技术社区开放 QwQ-Max 及 Qwen2.5-Max 的模型参数。

 

值得关注的是,该系列还将推出面向边缘计算场景的轻量化版本,其中 QwQ-32B 模型专为本地化部署设计,可在终端设备实现高效运行。



消息发布后迅速引起了社区关注,网友们纷纷表示期待正式版发布和开源。Qwen 推理模型发布时机“撞车”Anthropic,不经意间再次上演了一次“隔空对狙”。不过,大家依然期待 OpenAI 和谷歌将如何应对当前局势。

 

参考链接:

https://www.anthropic.com/news/claude-3-7-sonnet

https://www.anthropic.com/research/visible-extended-thinking

https://qwenlm.github.io/blog/qwq-max-preview/

2025-02-25 13:537297

评论

发布
暂无评论

阿里通义灵码全面公测,来看看它的水平怎么样?

阿里巴巴云原生

阿里云 云原生 通义灵码

探索机器学习:从基础概念到应用实践

霍格沃兹测试开发学社

电子签赛道效率之争,e签宝率先给解法

ToB行业头条

与鲸同行,智领未来!和鲸科技高校市场渠道合作伙伴正式开启招募

ModelWhale

人工智能 数据科学 渠道

HStream Webinar: 兼容 Kafka 协议的下一代流数据平台

EMQ映云科技

kafka mqtt

“打工人”的自我修养-如何在30秒内把“问题”讲清楚

M

原创 职场 认知 逻辑

深入了解 Linux 常用性能统计命令

霍格沃兹测试开发学社

SQL中如何添加数据:基础指南

霍格沃兹测试开发学社

Java 异常处理与正则表达式详解,实例演练及最佳实践

小万哥

Java 程序人生 编程语言 软件工程 后端开发

提升跨境直播体验,选择适用的直播专线

Ogcloud

海外直播专线 海外直播 跨境直播 跨境直播专线

华为校园鸿蒙公开课走进南京大学

极客天地

一文告诉你服务器为什么要托管?

Finovy Cloud

云服务器 IDC 服务器托管

1688API接口推荐:1688工厂档案信息数据接口

tbapi

1688 1688API接口 1688工厂档案信息

零基础入门数据挖掘-课程汇总

阿里云天池

阿里云

揭秘ChatGPT的Prompt方法:原理与应用总结

霍格沃兹测试开发学社

观测云在 .NET 业务中分析性能问题的最佳实践

观测云

APM Profile 可观测性

开源LLM大模型聊天

百度开发者中心

人工智能 大模型 问答助手

活动预告:如何培养高质量应用型医学人才?

ModelWhale

数据分析 人才培养 R语言 临床医学 新医科

图数据库基准测试 LDBC SNB 系列讲解:Schema 和数据生成的机制

不在线第一只蜗牛

数据库 LDBC

探索自然语言处理:语言模型的发展与应用

霍格沃兹测试开发学社

AppLink对51Tracking的集成方式

RestCloud

APPlink 自动化集成 51tracking

大模型 | LLM的7大主要功能有哪些?

澳鹏Appen

大模型 LLM

走进AI新时代:织信低代码的实践与启示

优秀

AI 低代码 AI智能

干货盘点!市场调查与分析必备的10个模板!

彭宏豪95

职场 在线白板 行业调研 效率软件 调研报告

ADB 下载、安装及使用教程:让你更好地管理 Android 设备

霍格沃兹测试开发学社

设计原则 — DRY & Rule of three

Lemoon Can

设计原则 DRY Rule Of three

中文比R1丝滑、玩宝可梦还贼溜?全球首个混合推理模型Claude 3.7 Sonnet太惊艳,网友直呼“孤独求败”!_AI&大模型_褚杏娟_InfoQ精选文章