QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

20 万卡吞金兽 Grok 3 炸裂登场,卡帕西大神亲测:性能超过 DeepSeek R1!网友:算力翻数倍,性能提升不到 10%?!

  • 2025-02-18
    北京
  • 本文字数:4457 字

    阅读完需:约 15 分钟

大小:2.18M时长:12:41
20万卡吞金兽Grok 3炸裂登场,卡帕西大神亲测:性能超过DeepSeek R1!网友:算力翻数倍,性能提升不到10%?!

xAI 发布 Grok 3 和 Grok 3-mini

在 AI 领域,埃隆·马斯克再次成为全球焦点。2 月 12 日,这位科技狂人在迪拜世界政府峰会上透露,其旗下的人工智能公司 xAI 即将发布新一代 AI 模型 Grok 3,并称其为“迄今为止最强大的 AI 模型”。这一消息立即引发科技界强烈关注。



刚刚,Grok 3 连同 Grok 3 mini 如约而至。


发布会一开始,马斯克再次解释了“Grok”一词的含义。这个词来自罗伯特·海因莱因的小说《异乡异客》。这个词被一个在火星长大的角色使用,意思是充分而深刻地理解某事。“Grok”这个词传达了深刻的理解,而同理心是其中的重要组成部分。


马斯克称,Grok 3 之所以能在很短的时间内就超越 Grok 2,是因为背后有一支强大的技术团队和数据中心支持。据 xAI 团队介绍,要训练出超级规模的模型就需要一个超级规模的数据中心做支持,所以他们先是花费了 122 天建成了 10 万卡的数据中心。但随后他们发现,这还远远不够。于是他们又用了 92 天就将原来的 Colossus 规模从 10 万卡扩建到 20 万卡,并在此基础上推出了 Grok 3。



Grok 3 最引人注目的特点将推理能力整合到了模型中。推理指的是模型在尝试解决问题之前需要花费大量时间进行思考。大约一个月前,Grok 3 的预训练完成了,从那时起,xAI 团队一直在努力将推理能力整合到当前的 Grok 3 模型中。然而,这仍处于早期阶段,模型仍在训练中。


今天展示的是 Grok 3 推理模型的一部分。此外,xAI 也在训练一个迷你版本的推理模型。Grok 3-mini 与 Grok 3 在推理上取得的结果相差不大,Grok 3-mini 训练时间更长,有时它的表现甚至略优于 Grok 3 推理模型。这仅仅表明 Grok 3 推理模型具有巨大的潜力,因为它仍在训练中。


在性能效果上,xAI 从数学、科学和编码三个方面将 Grok 3、Grok 3 mini 与各主流模型进行了对比。综合来看,Grok-3 推理模型测试版在数学、科学和编码三个方面均表现优异,尤其是在编码方面得分最高。Grok-3 mini 推理模型的表现也相当不错,尽管略低于 Grok-3 推理模型测试版,但仍优于 OpenAI 的 o3-mini、o1、DeepSeek-R1 等其他主流模型。


本场发布会,Grok 3 还引入了 DeepSearch,该公司将其描述为一种新型搜索引擎和类似 Agent 功能的早期版本。据 xAI 工程师介绍,DeepSearch 是 xAI 的第一代 Agent 工具,不但能帮助开发者、研究人员和科学家编写代码,实际上还能帮助每个人回答日常遇到的问题。



据马斯克介绍,Grok 3 中支持两种订阅模式:X(推特)平台的 Premium+ 深度用户和月费 30 美元 / 年费 300 美元的 SuperGrok。xAI 将在一周时间内在 Grok 3 中上线语音模式,数周后对企业用户提供包含 DeepSearch 的 API 接入方案,并在几个月后对 Grok 2 进行全面开源,但 Grok 3 的关键训练细节和内部权重暂时不会全面公开。


性能如何?


先来具体看看现在 Grok 3 的各项水平是怎样的?


首先来明确一下 xAI 对其的使用场景目标,马斯克在直播中表示,希望能够使用 Grok 3 完成特别重要的现实任务,比如打造一台特斯拉、解决太空发射问题或者应用到数据中心。据其预测,“两年之内会发生两件事情:计算机在各方面打败人类,帮助实现诺贝尔级的科学数据突破。下一次重大突破在明年 11 月出现,我们会真正让 SpaceX 登陆火星,应用 Grok 模型来去计算整个的发射过程。


同时,xAI 宣布将成立一家 AI 游戏工作室来制作游戏。直播中,xAI 现场演示了用 Grok3 创造一个融合《俄罗斯方块》和《宝石迷阵》的游戏案例。



现在也已经有模型体验者用 Grok 3 创建了游戏:

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    给 Scaling Law 带来什么惊喜


    此次 Grok 3 之所以在发布前就吸引来如此多人的关注,原因之一是大家对 Scaling Law 当前真实效果的重视。现在越来越多的声音称“Scaling Law 终结了”,即大模型不再具有规模效应,增加参数数量、算力、训练语料等更多资源或许也无法继续增强模型的性能效果了。


    发布会上,xAI 团队透露,Grok 3 背后有 20 万张英伟达 GPU 、4 亿个 GPU 小时的超强算力支持。

    Grok 3 由 Colossus 超级计算机训练完成,最初 xAI 用了 122 天让首批 10 万卡集群投入使用,后续又花费 92 天拓展到 20 万卡集群,较前代产品 Grok 2 使用的 15000 个 GPU 实现了数倍的跨越式提升。据公开介绍,OpenAI 训练 GPT-4 用了大约 25000 块 A100 GPU,据 Lambda 测算,H100 的训练吞吐量为 A100 的 160%。也就是说,GPT 4 相当于用了 15625 块 H100


    再对比近期大火的 DeepSeek,据公开论文介绍,DeepSeek-V3 的总训练成本为 278.8 万个 H800 GPU 小时。尽管另据独立研究机构 SemiAnalysis 估计,“DeepSeek 拥有约 1 万张 H800 和约 1 万张 H100。此外,他们还大量订购 H20 GPU”,但也远不及 Grok 3 的训练算力高。


    因而,许多网友都将其这次发布当做 Scaling Law 技术路线的又一次验证,并且马斯克在 2024 年中启动 Grok 3 训练时称对标的是 GPT 5。


    目前,Grok 3 暂未公布其参数规模。微软在近日发布的一篇医学相关论文中披露,GPT-4 有 1.76 万亿个参数,GPT-4o 和 GPT-4o-mini 的参数分别为 2000 亿和 80 亿。另据公开介绍,DeepSeek-V3 的参数规模达到 6710 亿,但会使用混合专家架构以保证仅激活选定的参数,以便准确高效地处理给定任务。



    接下来从性能效果上展开讲讲 Grok 3 到底怎么样。xAI 从数学、科学、编码三方面去对比了 Grok 3 系列和当前热门前沿模型,并在多个基准测试中都击败了其他竞争对手。



    据介绍,在 Arena 中(这是一项众包测试,让不同的 AI 模型相互竞争,并让用户投票选出他们喜欢的答案),Grok-3 是有史以来第一个得分突破 1400 分的模型,并在所有类别中均排名第一。



    而去年发布的 Grok 2 模型在 Arena 测试中得分为 1280 分。与 Grok 2 相比,Grok 3 早期版本的性能提升了近 10%。



    这样来看,在大语言模型(LLM)领域,Scaling Laws 或许依然成立。


    不过,Grok 3 不仅仅是 LLM,还引入了“思维链”(Chain Of Thought)推理能力。马斯克称,Grok 3 在复杂的推理任务中表现优于其竞争对手。据介绍,xAI 的最新模型 Grok 3 在 2024 美国数学邀请考试(AIME)中取得了 93% 的骄人成绩,将其他前沿模型甩在了身后。即使是其 mini 版,也足以与其他 AI 模型的能力相媲美。



    值得注意的是,大约五天前,AIME 2025 竞赛也结束了。随后,xAI 团队让两个模型(Grok 3 和 Grok 3 mini)在同一基准的同一考试中进行比拼。有趣的是,更大的 Grok 3 推理模型在这次全新的考试中表现更好。这表明,与较小的模型相比,更大的模型具有更强的泛化能力和性能。然而,与去年的考试相比,较小的模型表现更好,因为它更有效地学习了之前的考试内容



    Grok 3 能挤进全球模型 Top 5 吗?


    这次,不少网友对 Grok 3 模型给出了正面评价,“Grok 3 的出现标志着人工智能发展史上的一个重要里程碑。凭借其令人印象深刻的 ELO 分数和推理能力,我们显然看到了人工智能在解决复杂问题方面的飞跃。”


    AI 大佬 Andrej Karpathy 今天早些时候获得了 Grok 3 的早期访问权限,他也成为首批能够快速体验其功能的人之一。Karpathy 表示,Grok 3 好的点是“创建一个棋盘游戏网页,显示一个六边形网格,就像《卡坦岛》游戏中的那样。每个六边形网格都编号为 1..N,其中 N 是六边形瓷砖的总数。使其通用,以便可以使用滑块更改‘环’的数量。例如,在《卡坦岛》中,半径为 3 个六边形。请使用单个 HTML 页面。”


    Karpathy 强调,很少有模型能够可靠地准确完成这个任务。顶级的 OpenAI 思维模型(例如 o1-pro,每月 200 美元)也能做到,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 都无法做到。但 Grok 3 也有弱点。“它没有解决我的‘表情符号谜题’问题,在这个问题中,我给出了一个带有隐藏在 Unicode 变体选择器中的消息的笑脸,即使我以 Rust 代码的形式给出了如何解码的强烈提示。我见过的最大的进展来自 DeepSeek-R1,它曾经部分解码了消息。”


    那么,Grok 3 能挤进全球顶级模型之列吗?在马斯克看来,是能的。从今天的发布会来看,他对 Grok 3 充满信心,并认为该模型能未来能击败一众先进模型登顶最强模型宝座。


    但事实真的如此吗?目前,Grok 在人工智能领域仍是一个小角色。它的受欢迎程度远不及 ChatGPT 等竞争对手,截至 2024 年 11 月,ChatGPT 占据了人工智能工具市场份额的 62.5%。


    不过,Grok 确实拥有一些与竞争对手不同的特点。它最大的优势是能原生集成社交媒体 X,使该聊天机器人能够访问社交媒体平台的实时信息,其独特的编程方式使其能够以叛逆和俏皮的语气回答挑衅性的提示。由于这些独特卖点,马斯克的 AI 聊天机器人在 X 用户中很受欢迎。


    然而,该聊天机器人经常卷入争议,从回应政治虚假信息到因其可访问 X 数据而宣传有偏见的内容。ChatGPT 和 Gemini 等竞争对手也拥有更多参数,因此它们的响应通常更准确。


    基于以上种种,有外界声音认为,堆砌了如此多的算力,即使使用合成训练数据,Grok 3 也不太可能与更大的竞争对手相提并论。

    Grok 系列模型的起源与背景


    Grok 系列模型是埃隆·马斯克旗下人工智能公司 xAI 的核心产品之一。xAI 成立于 2022 年,旨在开发具有更高推理能力和逻辑一致性的人工智能系统。马斯克一直对人工智能的发展持谨慎态度,多次公开表达对人工智能潜在风险的担忧。然而,他也认为,人工智能技术的进步是不可避免的,因此他希望通过 xAI 开发出更安全、更透明且对人类友好的 AI 系统。


    Grok 的名字来源于科幻作家罗伯特·海因莱因的小说《异乡异客》,意为“深刻理解”或“完全掌握”。这一命名体现了马斯克对人工智能的期望:不仅要能够处理复杂的任务,还要具备对人类思维和逻辑的深刻理解。


    Grok 1 于 2023 年初发布,是 xAI 推出的首款人工智能聊天机器人。作为初代模型,Grok 1 的主要目标是验证合成数据训练方法的可行性。与当时主流的 ChatGPT 等模型不同,Grok 1 并未完全依赖真实世界数据进行训练,而是采用了大量合成数据。合成数据是通过算法生成的模拟数据,能够覆盖更广泛的情景和逻辑结构。


    Grok 1 的推出引起了广泛关注,它能够处理复杂的逻辑问题,并在某些特定任务上超越了当时的 ChatGPT 3.5。然而,Grok 1 也存在一些明显的局限性。例如,由于合成数据的局限性,它在处理真实世界中的细微差别和复杂性时表现不佳。此外,Grok 1 的训练成本极高,且模型规模较小,限制了其在实际应用中的推广


    2023 年年中,在 Grok 1 的基础上,xAI 推出了 Grok 2。这一代模型在多个方面进行了重大改进。依然采用了更大规模的合成数据集,同时结合了少量高质量的真实世界数据,以弥补初代模型在处理真实场景中的不足。Grok 2 还引入了更先进的训练算法,尤其是在数学推理、代码生成和复杂问题解决方面超越了当时的 ChatGPT 4。它还首次尝试了多模态能力,能够处理文本、图像和简单视频数据。


    然而,在众多优秀大模型层出不穷的 2023 年,Grok 2 的问世并没有掀起太大水花。Grok 2 依然有着很多弊端,尽管其技术能力备受认可,但由于其使用权限仅限于 X 平台(原 Twitter)的高级用户,普通用户无法直接体验。这一限制导致 Grok 2 的市场覆盖率较低,未能对 ChatGPT 等竞争对手形成实质性威胁。如今 Grok 3 来了,情况会有变化吗?


    我们拭目以待。

    2025-02-18 17:167589
    用户头像
    李冬梅 加V:busulishang4668

    发布了 1045 篇内容, 共 658.4 次阅读, 收获喜欢 1209 次。

    关注

    评论

    发布
    暂无评论

    从三万英尺看全链路灰度

    阿里巴巴云原生

    阿里云 云原生 全链路灰度

    大势所趋_ 华为云企业交换机ESW助力智慧医院转型

    科技说

    使用NineData实现企业级数据库备份, 数据备份告别“拆盲盒” ?

    NineData

    sql 数据恢复 多云架构 数据管理工具 数据备份

    统一观测|如何使用 Prometheus 监控 Windows

    阿里巴巴云原生

    阿里云 云原生 Prometheus

    原力MetaForce2.0版本佛萨奇系统开发技术讲解方案

    I8O28578624

    国产数据库市场横空杀出个巨头?亚信 AntDB数据库凭什么

    亚信AntDB数据库

    数据库 AntDB 国产数据库 AntDB数据库

    软件测试丨一文搞定 Postman 接口自动化测试

    测试人

    软件测试 Postman 自动化测试 接口测试 测试开发

    华为云弹性负载均衡服务,如何助企业应付流量压力

    科技说

    华为云智能云接入ICA,企业数据上云的信赖之选

    与时俱进的时代

    SeaTunnel 在天翼云数据集成平台的探索实践

    Apache SeaTunnel

    数据同步 数据集成平台

    智能合约DAPP流动性质押挖矿分红系统开发说明及方案

    I8O28578624

    对不起,你做的A/B实验都是错的——火山引擎DataTester科普

    字节跳动数据平台

    大数据 AB testing实战 12 月 PK 榜

    微服务洞察,让微服务更透明

    阿里巴巴云原生

    阿里云 微服务 云原生

    华为云全球加速GA:为您提供优质的网络服务

    与时俱进的时代

    羊了怎么居家办公?免费不限速的远控软件RayLink一解燃眉之急!!

    RayLink远程工具

    远程控制软件 远程办公软件 远控软件 RayLink

    先进工具,助力数据科学工作者快速调优丨和鲸科技 × Weights & Biases

    ModelWhale

    人工智能 数据分析 模型训练 训练营 企业合作

    Wallys/QCA9531,MIMO,2.4G,30dBm,2 x 2.4G MMCX//AR9344 802.11a/802.11n 5G

    wallysSK

    华为云弹性负载均衡ELB,如何保障服务器不瘫痪?

    科技说

    华为云智能云接入ICA,助力企业轻松上云

    与时俱进的时代

    有奖评测 | Serverless 应用引擎 SAE 征集令开启

    阿里巴巴云原生

    阿里云 Serverless 云原生

    时序数据库 TDengine 签约华锐技术,助力行情数据处理分析

    TDengine

    数据库 tdengine 时序数据库

    安全可靠,弹性灵活--华为虚拟专用网络VPN

    爱尚科技

    从各行业的实际运用中,窥见华为云虚拟专用网络VPN的强大性能

    爱尚科技

    华为云VPN,经典跟专业版企业应该怎么选?

    爱尚科技

    架构实战营模块3作业

    程序员小张

    「架构实战营」

    Maya的7个实用操作技巧

    Finovy Cloud

    云渲染 Maya,渲染

    刨根问底系列之grpc-java入门

    零点999

    Fastjson的反序列化漏洞复现

    网络安全学海

    黑客 网络安全 信息安全 渗透测试 漏洞挖掘

    一文解析Spring JDBC Template的使用指导

    华为云开发者联盟

    开发 华为云 12 月 PK 榜

    NFTScan 2022 年度总结

    NFT Research

    NFT 数据基础设施

    华为云Classroom聚焦人才数字化转型,引领智慧教育改革新模式

    华为云开发者联盟

    开发 华为云 12 月 PK 榜

    20万卡吞金兽Grok 3炸裂登场,卡帕西大神亲测:性能超过DeepSeek R1!网友:算力翻数倍,性能提升不到10%?!_AI&大模型_李冬梅_InfoQ精选文章